0.5.4 版本更新说明:
模型支持
增强了 DeepSeek v2、Qwen、Qwen2 和 Nemotron 的管道并行性支持。
增强了 InternVL2、BLIP-2 和 MiniCPM-V的视觉语言模型支持。
添加了 H2O Danube3-4b。
添加了 Nemotron 模型(Nemotron-3、Nemotron-4、Minitron)。
硬件支持
TPU 增强:集合通信、TP 引擎异步、更快的编译时间。
Intel CPU:启用多进程和张量并行性。
性能
我们正在努力快速提升性能。以下每个 PR 都带来了一些改进,我们预计在下一个版本中会有更多的增强。
使用 zeromq 分离了 OpenAI 服务器的 HTTP 请求处理和模型推理循环。这带来了首次获取令牌时间 20% 的加速和令牌间延迟 2 倍的加速。
使用 Python 的原生数组数据结构加速填充。这在大批次大小场景下带来了 15% 的吞吐量增强。
减少了不必要的计算,当 logprobs=None 时。这将大批次大小场景下获取 log 概率的时间从约 30ms 减少到了约 5ms。
优化了 get_seqs 函数,带来了 2% 的吞吐量提升。
生产特性
增强了推测性解码:DraftModelRunner 中的 FlashInfer、可观测性 和基准测试。
根据 Triton 重构了 punica 内核。
支持离线 LLM 的引导解码。
量化
支持 vllm 的 W4A8 量化。
为 Ada Lovelace 和 SM75 T4 调整了 FP8 和 INT8 内核。
支持读取 bitsandbytes 预量化模型。