操作系统
Linux
最近更新
2024-08-06
使用许可
开源
语言
不支持中文
文件大小
143.93 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.4.1 版本更新说明:

一、新增功能及改进

  • 文档改进:通过 @sangstar 为 tensorizer 的使用提供了更清晰的说明,增强了用户理解和使用便利性。
  • LM 格式强制器:通过 @noamgat 添加了引导解码支持,提升了模型解码的灵活性和准确性。
  • 模型服务:通过 @hmellor 的改进,现在模型可以在多个名称下提供服务,增强了模型的复用性和灵活性。
  • 自定义功能:通过 @youkaichao 添加了在分布式推理中记录函数调用以进行调试的功能,提升了调试效率。
  • 生成配置支持:通过 @simon-mo 的更新,现在支持从 generation_config.json 中获取 eos_token_id,使得配置更加灵活。

二、Bug 修复

  • Ray Workers 性能分析:通过 @rickyyx 修复了使用 nsight 进行 ray workers 性能分析的问题。
  • LoRA 加载检查:通过 @jeejeelee 修复了 LoRA 加载检查的问题,确保了模型加载的准确性和稳定性。
  • 输出解析错误:通过 @elinx 修复了 trtllm 后端的输出解析错误,避免了潜在的输出错误。
  • 类型注解:通过 @rkooo567 修复了关于 Python 版本对类型注解的限制问题,提高了代码的兼容性和健壮性。
  • 异步引擎统计日志:通过 @ronensc 在 #4150 中修复了异步引擎中统计日志的丢失问题,保证了统计数据的完整性和准确性。

三、内核与性能优化

  • 模型加载代码重构:通过 @Yard1 对模型加载代码进行了重构,提高了代码的可读性和可维护性。
  • 推测解码集成:通过 @cadedaniel 将推测解码与 LLMEngine 集成,提高了解码的速度和准确性。
  • CPU/AMD 测试优化:通过 @cadedaniel 将 CPU/AMD 测试移动到等待之后,优化了测试流程。
  • RayWorkerVllm 替换:通过 @youkaichao 替换窄用途的 RayWorkerVllm 为通用的 WorkerWrapper,减少了代码重复,提高了代码复用性。

四、版本与依赖更新

  • 版本发布:通过 @simon-mo 发布了 0.4.1 版本,包含上述修复和改进。
  • Transformers 更新:通过 @njhill 将 transformers 升级到最新版本,确保与最新技术的兼容性。

五、其他

  • CI/CD 改进:通过 @liangfu 添加了 neuron docker 和 ci 测试脚本,增强了持续集成和持续部署的自动化程度。
  • 文档字符串修复:通过 @UranusSeven 修复了文档字符串中的错误,提高了文档的质量和准确性。

本次更新日志涵盖了新增功能、Bug 修复、内核与性能优化、版本与依赖更新以及其他方面的改进,旨在提升软件的稳定性、易用性和性能。感谢您的使用,如有任何问题或建议,请随时与我们联系。

其他版本
最近更新软件·Linux 软件更新列表
小鱼易连 [网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏
刚刚
小鱼易连 [网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏
刚刚
Brave Browser [网络] Brave Browser 1.73.91 ARM64
刚刚
Brave Browser [网络] Brave Browser 1.73.91 64位
刚刚
Slack [应用软件] Slack 4.41.97 64位
刚刚
Cursor [开发] Cursor 0.42.5 64位
昨天 21:26
WPS 365 [应用软件] WPS 365 12.8.2.18605 龙芯
昨天 21:26
WPS 365 [应用软件] WPS 365 12.8.2.18605 ARM64
昨天 21:23
WPS 365 [应用软件] WPS 365 12.8.2.18605 MIPS64EL
昨天 21:23
WPS Office [应用软件] WPS Office 12.1.0.17900 64位
昨天 21:21
新软件·Linux 新软件列表
Cursor [开发] Cursor 0.42.5 64位
昨天 21:26
VMware Workstation [系统工具] VMware Workstation 17.6.1 64位
11-19
微信 [网络] 微信 4.0.0 龙芯
11-11
微信 [网络] 微信 4.0.0 ARM64
11-11
微信 [网络] 微信 4.0.0 64位
11-11
Another Redis Desktop Manager [开发] Another Redis Desktop Manager 1.7.0 ARM64
11-10
115浏览器 [网络] 115浏览器 27.0.6.9 64位
11-09
Python 3.13 [开发] Python 3.13 3.13.0 64位
11-07
Python 3.12 [开发] Python 3.12 3.12.7 64位
11-07
Python 3.11 [开发] Python 3.11 3.11.10 64位
11-07