vLLM for Python3.11+cu118

Linux

64位

very Large Language Model 0.5.3 正式版

查看最新版本

操作系统: Linux

最近更新: 2024-09-15

使用许可: 开源

语言: 不支持中文

文件大小: 151.03 MB

0.5.3 版本更新说明：

模型支持

vLLM现在支持Meta Llama 3.1模型！

该模型使用FP8量化，在单个配备8xH100或8xA100的节点上运行。

BF16版本的模型应该能在多个节点上通过管道并行运行。如果你有快速的网络互联，你可能也会想要考虑全张量并行。

为了支持长上下文，已经添加了一种新的rope扩展方法，并且默认为Meta Llama 3.1系列模型启用了分块预填充。

支持Mistral-Nemo模型。

支持Chameleon模型。

为Mixtral提供管道并行支持。

硬件支持

对TPU支持进行了大量增强。

性能提升

在Marlin内核中增加了AWQ支持。这为现有的AWQ模型带来了显著（1.5-2倍）的性能改进！

朝向SPMD工作执行器的重构进展。

提升准备输入过程的改进进展。

针对管道并行的内存优化。

生产引擎

对管道并行和CPU卸载的正确性测试。

支持从HuggingFace动态加载LoRA适配器。

使用标准库的multiprocessing模块实现管道并行。

其他

实现了CPU卸载，现在你可以使用 --cpu-offload-gb 来控制用多少内存“扩展”RAM。

新的vllm CLI现已准备好接受测试。它包含三个命令：serve, complete, 和 chat。欢迎反馈和改进！

轮子包（wheels）现在在Ubuntu 20.04而非22.04上构建。

来自 undefined 的其他软件查看全部

EagleGet 2.1.6.70 正式版 01-04 更新

Chromium 122.0.6227.0 正式版 01-04 更新

Chromium 122.0.6227.0 正式版 01-04 更新

Chromium 122.0.6227.0 正式版 01-04 更新

Signal 7.33.0 正式版 11-15 更新

Signal 7.33.0 正式版 11-15 更新

Discord 1.0.9162 正式版 09-08 更新

Discord 0.0.318 正式版 09-08 更新

Discord 0.0.67 正式版 09-08 更新

Steam 最新版正式版 06-04 更新

最近更新软件·Linux 软件更新列表

[网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏

刚刚

[网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏

刚刚

[网络] Brave Browser 1.73.91 ARM64

刚刚

[网络] Brave Browser 1.73.91 64位

刚刚

[应用软件] Slack 4.41.97 64位

刚刚

[开发] Cursor 0.42.5 64位

昨天 21:26

[应用软件] WPS 365 12.8.2.18605 龙芯

昨天 21:26

[应用软件] WPS 365 12.8.2.18605 ARM64

昨天 21:23

[应用软件] WPS 365 12.8.2.18605 MIPS64EL

昨天 21:23

[应用软件] WPS Office 12.1.0.17900 64位

昨天 21:21

新软件·Linux 新软件列表

[开发] Cursor 0.42.5 64位

昨天 21:26

[系统工具] VMware Workstation 17.6.1 64位

11-19

[网络] 微信 4.0.0 龙芯

11-11

[网络] 微信 4.0.0 ARM64

11-11

[网络] 微信 4.0.0 64位

11-11

[开发] Another Redis Desktop Manager 1.7.0 ARM64

11-10

[网络] 115浏览器 27.0.6.9 64位

11-09

[开发] Python 3.13 3.13.0 64位

11-07

[开发] Python 3.12 3.12.7 64位

11-07

[开发] Python 3.11 3.11.10 64位

11-07