vLLM for Python3.11+cu118

Linux

64位

very Large Language Model 0.5.1 正式版

查看最新版本

操作系统: Linux

最近更新: 2024-09-15

使用许可: 开源

语言: 不支持中文

文件大小: 140.54 MB

0.5.1 版本更新说明：

亮点

vLLM 现已支持管道并行！您现在可以使用 --pipeline-parallel-size 参数运行API服务器。

模型支持

添加对Gemma 2的支持。请注意，为了保证正确性，Gemma应与支持logits软上限的FlashInfer后端一起运行。FlashInfer的轮子可在此处下载。

支持首个状态空间模型Jamba。

支持Deepseek-V2。请注意，多头潜在注意力(MLA)尚未实现，我们期待您的贡献！

视觉语言模型新增动态图像尺寸支持及模型输入处理注册表。

硬件支持

TPU支持增强。

引入OpenVINO后端支持。

生产服务

支持分片张量化模型。

持续流式传输OpenAI响应令牌统计信息。

性能提升

通过共享内存优化分布式通信。

块管理器延迟优化。

压缩张量支持增强，包括Marlin和W4A16格式。

更快的FP8量化内核，Ampere架构上的FP8支持。

为prefill、decode提供FlashInfer选项，并为decode启用CUDA Graph。

推测性解码

引入MLPSpeculator。

典型接受采样器(Typical Acceptance Sampler)。

初步模型运行器草案。

开发效率提升

合并后基准测试现在在perf.vllm.ai上可用！

在CI环境中添加A100支持。

朝向夜间轮子发布的步骤。

来自 undefined 的其他软件查看全部

EagleGet 2.1.6.70 正式版 01-04 更新

Chromium 122.0.6227.0 正式版 01-04 更新

Chromium 122.0.6227.0 正式版 01-04 更新

Chromium 122.0.6227.0 正式版 01-04 更新

Signal 7.33.0 正式版 11-15 更新

Signal 7.33.0 正式版 11-15 更新

Discord 1.0.9162 正式版 09-08 更新

Discord 0.0.318 正式版 09-08 更新

Discord 0.0.67 正式版 09-08 更新

Steam 最新版正式版 06-04 更新

最近更新软件·Linux 软件更新列表

[网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏

刚刚

[网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏

刚刚

[网络] Brave Browser 1.73.91 ARM64

刚刚

[网络] Brave Browser 1.73.91 64位

刚刚

[应用软件] Slack 4.41.97 64位

刚刚

[开发] Cursor 0.42.5 64位

昨天 21:26

[应用软件] WPS 365 12.8.2.18605 龙芯

昨天 21:26

[应用软件] WPS 365 12.8.2.18605 ARM64

昨天 21:23

[应用软件] WPS 365 12.8.2.18605 MIPS64EL

昨天 21:23

[应用软件] WPS Office 12.1.0.17900 64位

昨天 21:21

新软件·Linux 新软件列表

[开发] Cursor 0.42.5 64位

昨天 21:26

[系统工具] VMware Workstation 17.6.1 64位

11-19

[网络] 微信 4.0.0 龙芯

11-11

[网络] 微信 4.0.0 ARM64

11-11

[网络] 微信 4.0.0 64位

11-11

[开发] Another Redis Desktop Manager 1.7.0 ARM64

11-10

[网络] 115浏览器 27.0.6.9 64位

11-09

[开发] Python 3.13 3.13.0 64位

11-07

[开发] Python 3.12 3.12.7 64位

11-07

[开发] Python 3.11 3.11.10 64位

11-07