0.5.2 版本更新说明:
计划中的重大变更:
我们计划在未来几个版本中移除束搜索(beam search)。此版本会在请求中启用束搜索时发出警告。如果您在vLLM中确实有使用束搜索的有效场景,请在RFC中提出您的担忧。
本次发布已转向与Python版本无关的wheel包。单个wheel包可安装于vLLM所支持的所有Python版本上。
模型支持
新增PaliGemma模型、Fuyu-8B模型
支持软调优提示
新增添加多模态插件的指南
硬件
AMD平台:统一CUDA_VISIBLE_DEVICES的使用
性能优化
针对广播大型对象增加ZeroMQ回退方案
简化代码以支持管道并行
针对Ada Lovelace架构关闭CUTLASS的scaled_mm功能
在带有偏置的FP8层使用CUTLASS内核
新特性
在基于KV缓存的模型中为推测性解码启用奖励令牌
实现带有Top-1提议者的Medusa算法
实验性vLLM命令行界面,用于服务和查询OpenAI兼容服务器
其他
在CI中添加多节点支持
基准测试:新增H100套件
[CI/构建]为tgi、tensorrt-llm和lmdeploy添加夜间基准测试
构建夜间wheel包