vLLM for Python3.9+cu118 0.5.4 for linux 64位正式版历史版本

0.5.4 版本更新说明：

模型支持

增强了 DeepSeek v2、Qwen、Qwen2 和 Nemotron 的管道并行性支持。

增强了 InternVL2、BLIP-2 和 MiniCPM-V的视觉语言模型支持。

添加了 H2O Danube3-4b。

添加了 Nemotron 模型（Nemotron-3、Nemotron-4、Minitron）。

硬件支持

TPU 增强：集合通信、TP 引擎异步、更快的编译时间。

Intel CPU：启用多进程和张量并行性。

性能

我们正在努力快速提升性能。以下每个 PR 都带来了一些改进，我们预计在下一个版本中会有更多的增强。

使用 zeromq 分离了 OpenAI 服务器的 HTTP 请求处理和模型推理循环。这带来了首次获取令牌时间 20% 的加速和令牌间延迟 2 倍的加速。

使用 Python 的原生数组数据结构加速填充。这在大批次大小场景下带来了 15% 的吞吐量增强。

减少了不必要的计算，当 logprobs=None 时。这将大批次大小场景下获取 log 概率的时间从约 30ms 减少到了约 5ms。

优化了 get_seqs 函数，带来了 2% 的吞吐量提升。

生产特性

增强了推测性解码：DraftModelRunner 中的 FlashInfer、可观测性和基准测试。

根据 Triton 重构了 punica 内核。

支持离线 LLM 的引导解码。

量化

支持 vllm 的 W4A8 量化。

为 Ada Lovelace 和 SM75 T4 调整了 FP8 和 INT8 内核。

支持读取 bitsandbytes 预量化模型。