操作系统
Linux
最近更新
2024年09月15日
使用许可
开源
语言
不支持中文
文件大小
161.98 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.6.1 版本更新说明:

模型支持

增加了对Pixtral(mistralai/Pixtral-12B-2409)的支持。

增加了对Llava-Next-Video,Qwen-VL ,Qwen2-VL 的支持。

增加了LLaVA 和 InternVL2 模型 的多输入支持。


性能增强

对awq_gemm和awq_dequantize进行了内存优化,吞吐量提升2倍。


生产引擎

支持在API服务器中加载和卸载LoRA。

为批量运行器添加进度报告功能。

添加对NVIDIA ModelOpt静态缩放检查点的支持。


其他

更新Docker镜像以使用Python 3.12,以获得小幅性能提升。

增加了CODE_OF_CONDUCT.md 文件。

其他版本
最近更新软件 - Linux 软件更新列表
Cursor [开发] Cursor 0.42.5 64位
昨天 21:26
WPS 365 [应用软件] WPS 365 12.8.2.18605 龙芯
昨天 21:26
WPS 365 [应用软件] WPS 365 12.8.2.18605 ARM64
昨天 21:23
WPS 365 [应用软件] WPS 365 12.8.2.18605 MIPS64EL
昨天 21:23
WPS Office [应用软件] WPS Office 12.1.0.17900 64位
昨天 21:21
WPS 365 [应用软件] WPS 365 12.8.2.18605 64位
昨天 21:17
妙笔 [应用软件] 妙笔 2.5.8.7566 64位
昨天 07:19
Zoom [网络] Zoom 6.2.10.4983 64位
昨天 07:09
Lunacy [设计] Lunacy 10.6 ARM64
昨天 06:44
Lunacy [设计] Lunacy 10.6 64位
昨天 06:44
新软件 - Linux 新软件列表
Cursor [开发] Cursor 0.42.5 64位
昨天 21:26
VMware Workstation [系统工具] VMware Workstation 17.6.1 64位
11-19
微信 [网络] 微信 4.0.0 龙芯
11-11
微信 [网络] 微信 4.0.0 ARM64
11-11
微信 [网络] 微信 4.0.0 64位
11-11
Another Redis Desktop Manager [开发] Another Redis Desktop Manager 1.7.0 ARM64
11-10
115浏览器 [网络] 115浏览器 27.0.6.9 64位
11-09
Python 3.13 [开发] Python 3.13 3.13.0 64位
11-07
Python 3.12 [开发] Python 3.12 3.12.7 64位
11-07
Python 3.11 [开发] Python 3.11 3.11.10 64位
11-07