操作系统
Linux
最近更新
2024-08-06
使用许可
开源
语言
不支持中文
文件大小
114.41 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.4.3 版本更新说明:

本次更新日志总结了广泛的改进和修复,涵盖核心优化、分布式计算、内核改进、前端调整、模型支持、文档更新以及CI/构建流程优化等多个方面。具体亮点包括:

  • 性能与效率提升:多项优化如更快的LoRA启用模型启动、动态前缀缓存加速、FP8线性层性能增强、CUDA图支持等,显著提升了模型运行效率。
  • 模型支持与实现:新增了Snowflake Arctic、E5-Mistral、IBM Granite Code、Qwen-2、LLaVA等模型的实现与支持,以及对GPTQ Marlin稀疏结构的支持。
  • 分布式与并行计算:对分布式计算的多方面改进,包括PyNCCL组支持、自定义全减操作重构以支持多TP组、P2P访问检查优化等,增强了大规模并行处理能力。
  • 内核与硬件适配:针对不同硬件的内核优化,如对AMD GPU的Punica内核支持、NVIDIA的float8_e4m3支持,以及对CUTLASS内核的增强,提升了兼容性和性能。
  • 前端与用户体验:前端调整,如自动检测vLLM-tensorized模型、聊天API中自定义角色的重启用、支持OpenAI批量文件格式,以及对交互体验的优化。
  • 文档与社区互动:文档更新,包含API参考、离线推理示例、赞助商致谢等,同时修复了文档中的错误并简化了内容。还添加了第四次社区聚会的公告。
  • 测试与稳定性:修复了多项bug,如CLI参数错误、模型dtype转换、通信超时问题等,以及加强了测试套件,确保了软件的健壮性和可靠性。

其他版本
最近更新软件·Linux 软件更新列表
Apifox [开发] Apifox 2.6.32 ARM64
11-21
Apifox [开发] Apifox 2.6.32 64位
11-21
腾讯文档 [应用软件] 腾讯文档 3.8.11 ARM64
11-21
腾讯文档 [应用软件] 腾讯文档 3.8.11 64位
11-21
小鱼易连 [网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏
11-21
小鱼易连 [网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏
11-21
Brave Browser [网络] Brave Browser 1.73.91 ARM64
11-21
Brave Browser [网络] Brave Browser 1.73.91 64位
11-21
Slack [应用软件] Slack 4.41.97 64位
11-21
Cursor [开发] Cursor 0.42.5 64位
11-20
新软件·Linux 新软件列表
Cursor [开发] Cursor 0.42.5 64位
11-20
VMware Workstation [系统工具] VMware Workstation 17.6.1 64位
11-19
微信 [网络] 微信 4.0.0 龙芯
11-11
微信 [网络] 微信 4.0.0 ARM64
11-11
微信 [网络] 微信 4.0.0 64位
11-11
Another Redis Desktop Manager [开发] Another Redis Desktop Manager 1.7.0 ARM64
11-10
115浏览器 [网络] 115浏览器 27.0.6.9 64位
11-09
Python 3.13 [开发] Python 3.13 3.13.0 64位
11-07
Python 3.12 [开发] Python 3.12 3.12.7 64位
11-07
Python 3.11 [开发] Python 3.11 3.11.10 64位
11-07