SGLang是一种大语言模型和视觉语言模型的服务框架。它基于并改进了多个开源LLM服务引擎的优秀设计,包括LightLLM[4]、vLLM[5]和Guidance[6]。它利用了FlashInfer[7]的高性能注意...
浏览 74 次 标签: SGLang Runtime v0.2伯克利新AI推理引擎 吊打TRT-LLM、vLLM!贾扬清点赞 出手即王炸