0.5.1 版本更新说明:
亮点
vLLM 现已支持管道并行!您现在可以使用 --pipeline-parallel-size
参数运行API服务器。
模型支持
添加对Gemma 2的支持。请注意,为了保证正确性,Gemma应与支持logits软上限的FlashInfer后端一起运行。FlashInfer的轮子可在此处下载。
支持首个状态空间模型Jamba。
支持Deepseek-V2。请注意,多头潜在注意力(MLA)尚未实现,我们期待您的贡献!
视觉语言模型新增动态图像尺寸支持及模型输入处理注册表。
硬件支持
TPU支持增强。
引入OpenVINO后端支持。
生产服务
支持分片张量化模型。
持续流式传输OpenAI响应令牌统计信息。
性能提升
通过共享内存优化分布式通信。
块管理器延迟优化。
压缩张量支持增强,包括Marlin和W4A16格式。
更快的FP8量化内核,Ampere架构上的FP8支持。
为prefill、decode提供FlashInfer选项,并为decode启用CUDA Graph。
推测性解码
引入MLPSpeculator。
典型接受采样器(Typical Acceptance Sampler)。
初步模型运行器草案。
开发效率提升
合并后基准测试现在在perf.vllm.ai上可用!
在CI环境中添加A100支持。
朝向夜间轮子发布的步骤。