操作系统
Linux
最近更新
2024-08-06
使用许可
开源
语言
不支持中文
文件大小
150.96 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.5.3 版本更新说明:

模型支持

vLLM现在支持Meta Llama 3.1模型!

该模型使用FP8量化,在单个配备8xH100或8xA100的节点上运行。

BF16版本的模型应该能在多个节点上通过管道并行运行。如果你有快速的网络互联,你可能也会想要考虑全张量并行。

为了支持长上下文,已经添加了一种新的rope扩展方法,并且默认为Meta Llama 3.1系列模型启用了分块预填充。

支持Mistral-Nemo模型。

支持Chameleon模型。

为Mixtral提供管道并行支持。


硬件支持

对TPU支持进行了大量增强。


性能提升

在Marlin内核中增加了AWQ支持。这为现有的AWQ模型带来了显著(1.5-2倍)的性能改进!

朝向SPMD工作执行器的重构进展。

提升准备输入过程的改进进展。

针对管道并行的内存优化。


生产引擎

对管道并行和CPU卸载的正确性测试。

支持从HuggingFace动态加载LoRA适配器。

使用标准库的multiprocessing模块实现管道并行。


其他

实现了CPU卸载,现在你可以使用 --cpu-offload-gb 来控制用多少内存“扩展”RAM。

新的vllm CLI现已准备好接受测试。它包含三个命令:serve, complete, 和 chat。欢迎反馈和改进!

轮子包(wheels)现在在Ubuntu 20.04而非22.04上构建。

其他版本
最近更新软件·Linux 软件更新列表
妙笔 [应用软件] 妙笔 2.5.4.7486 64位
今天 09:46
Todoist [应用软件] Todoist 9.7.5 64位
今天 07:24
Zotero [应用软件] Zotero 7.0.5 64位
今天 07:21
Zotero [应用软件] Zotero 7.0.5 32位
今天 07:21
Apifox [开发] Apifox 2.6.16 64位
今天 07:17
Apifox [开发] Apifox 2.6.16 ARM64
今天 07:15
Lunacy [设计] Lunacy 10.1.0 ARM64
今天 07:05
Lunacy [设计] Lunacy 10.1.0 64位
今天 07:05
.NET 9 运行时 [开发] .NET 9 运行时 9.0.0 RC 1 ARM
今天 06:47
.NET 9 运行时 [开发] .NET 9 运行时 9.0.0 RC 1 ARM64
今天 06:47
新软件·Linux 新软件列表
奥维互动地图 [行业] 奥维互动地图 2.7.0 ARM64
09-11
奥维互动地图 [行业] 奥维互动地图 2.7.0 64位
09-11
小鱼易连 [网络] 小鱼易连 3.10.0.22198 ARM64/麒麟,鲲鹏
09-11
小鱼易连 [网络] 小鱼易连 3.10.0.22150 64位/兆芯
09-11
小鱼易连 [网络] 小鱼易连 3.10.0.22198 ARM64/麒麟,鲲鹏
09-11
小鱼易连 [网络] 小鱼易连 3.10.0.22150 64位/兆芯
09-11
Tropy [媒体] Tropy 1.16.2 64位
09-10
Zotero [应用软件] Zotero 7.0.5 32位
今天 07:21
Zotero [应用软件] Zotero 7.0.5 64位
今天 07:21
欧路词典 [教育] 欧路词典 13.5.2 64位
09-09