0.6.0 版本更新说明:
性能更新
我们很高兴宣布更快的 vLLM,其吞吐量比 v0.5.3 提高了两倍。默认参数应该能实现显著的速度提升,但我们建议您也尝试开启多步调度。您可以通过在引擎参数中设置 --num-scheduler-steps 8
来做到这一点。请注意,它仍然有一些限制并且正在积极强化中。
- 多步调度现在支持 LLMEngine 和 log_probs。
- 异步输出处理器将输出数据结构的构造与 GPU 工作重叠,实现了 12% 的吞吐量增长。
- 使用 FlashInfer 后端进行 FP8 KV 缓存,投机解码中的拒绝采样。
模型支持
- 支持 bitsandbytes 8 位和 FP4 量化模型。
- 新的 LLM:Exaone、Granite、Phi-3.5-MoE。
- 为 mistral 模型提供了一种新的分词器模式,以使用原生的 mistral-commons 包。
- 多模态:
- 支持 LLaVA-Next、Phi-3-vision 模型的多图像输入。
- Ultravox 支持多个音频片段。
- ViTs 的 TP 支持。
硬件支持
- NVIDIA GPU:为 H200 扩展 cuda 图大小。
- AMD:Triton 实现 awq_dequantize 和 awq_gemm 以支持 AWQ。
- Intel GPU:管道并行支持。
- Neuron:上下文长度和令牌生成桶。
- TPU:GKE 上的单主机和多主机 TPU,异步输出处理。
生产特性
- 开放 AI 兼容的 Tools API + Hermes 和 Mistral 模型的流式传输!
- 添加来自 OpenAI 协议的 json_schema 支持。
- 启用分块预填充和前缀缓存一起使用。
- 离线聊天中的多模态支持,以及 OpenAI 前端中的多个多模态项目。
其他
- 支持在 benchmark_throughput.py 中对异步引擎进行基准测试。
- 与 torch.compile 集成的进展:避免 Dynamo guard 评估开销,跳过用于分析的编译。