操作系统
Linux
最近更新
2024年08月06日
使用许可
开源
语言
不支持中文
文件大小
118.42 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.5.4 版本更新说明:

模型支持

增强了 DeepSeek v2、Qwen、Qwen2 和 Nemotron 的管道并行性支持。

增强了 InternVL2、BLIP-2 和 MiniCPM-V的视觉语言模型支持。

添加了 H2O Danube3-4b。

添加了 Nemotron 模型(Nemotron-3、Nemotron-4、Minitron)。


硬件支持

TPU 增强:集合通信、TP 引擎异步、更快的编译时间。

Intel CPU:启用多进程和张量并行性。


性能

我们正在努力快速提升性能。以下每个 PR 都带来了一些改进,我们预计在下一个版本中会有更多的增强。

使用 zeromq 分离了 OpenAI 服务器的 HTTP 请求处理和模型推理循环。这带来了首次获取令牌时间 20% 的加速和令牌间延迟 2 倍的加速。

使用 Python 的原生数组数据结构加速填充。这在大批次大小场景下带来了 15% 的吞吐量增强。

减少了不必要的计算,当 logprobs=None 时。这将大批次大小场景下获取 log 概率的时间从约 30ms 减少到了约 5ms。

优化了 get_seqs 函数,带来了 2% 的吞吐量提升。


生产特性

增强了推测性解码:DraftModelRunner 中的 FlashInfer、可观测性 和基准测试。

根据 Triton 重构了 punica 内核。

支持离线 LLM 的引导解码。


量化

支持 vllm 的 W4A8 量化。

为 Ada Lovelace 和 SM75 T4 调整了 FP8 和 INT8 内核。

支持读取 bitsandbytes 预量化模型。

其他版本
最近更新软件 - Linux 软件更新列表
MKVToolNix [媒体] MKVToolNix 87.0 Intel/Silicon
刚刚
Discord [网络] Discord 0.0.67 64位
刚刚
RunJS [开发] RunJS 3.0.0 ARM
7分钟前
RunJS [开发] RunJS 3.0.0 ARM64
7分钟前
RunJS [开发] RunJS 3.0.0 64位
7分钟前
Postman [开发] Postman 11.11 ARM64
15分钟前
Postman [开发] Postman 11.11 64位
15分钟前
PostgreSQL 10 [开发] PostgreSQL 10 10.23 64位
今天 01:00
PostgreSQL 10 [开发] PostgreSQL 10 10.23 32位
今天 00:59
Sunshine [游戏工具] Sunshine 2024.906.213100 ARM64
昨天 22:41
新软件 - Linux 新软件列表
PostgreSQL 10 [开发] PostgreSQL 10 10.23 64位
今天 01:00
PostgreSQL 10 [开发] PostgreSQL 10 10.23 32位
今天 00:59
爱享素材下载器 [网络] 爱享素材下载器 2.1.1 ARM64
09-04
爱享素材下载器 [网络] 爱享素材下载器 2.1.1 ARM
09-04
爱享素材下载器 [网络] 爱享素材下载器 2.1.1 64位
09-04
TeamDrive [网络] TeamDrive 5.2.0.3617 64位
09-02
ocenaudio [媒体] ocenaudio 3.14.2 64位
09-01
ocenaudio [媒体] ocenaudio 3.14.2 64位
09-01
ocenaudio [媒体] ocenaudio 3.14.2 64位
09-01
FontForge [媒体] FontForge 20230101 64位
08-31