操作系统
Linux
最近更新
2024-08-06
使用许可
开源
语言
不支持中文
文件大小
124.10 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.5.0 版本更新说明:

构建与CI/CD改进

同时构建所有扩展的CMake目标。

为更长的CPU测试启用Intel队列。

AWS环境下的新CI模板。

简化模型加载流程的HfRunner更新。

减少CPU CI执行时间。

软标记AMD测试以防止阻塞。

添加输入测试。

更新vision测试。

移除Ray健康检查。

改善测试稳健性,使用上下文管理器。

小型CPU队列用于文档构建。

Docker容器挂载buildkite代理上传基准结果。


错误修复(Bugfixes)

修复日志记录器初始化问题。

移除废弃的@abstractproperty。

修复prefix缓存示例相关问题。

防止非生成模型调用LLM.encode。

路径拼写修正。

支持prompt_logprobs为0。

修复torch.compile与MultiprocessingGPUExecutor的兼容性。

修正pip安装setuptools导致的CPU后端问题。

修复因pip版本导致的问题。

解决环境变量覆盖的测试问题。

修复torch.compile错误。

修复CUTLASS支持检查的错误。

修复log消息关于默认最大模型长度。

使EngineArgs使用命名参数。

优雅关闭AsyncLLMEngine时不记录异常。

跳过特定条件下的计算。

修复DbrxFusedNormAttention的cache_config问题。

修复LoRA适配器的KeyError。

修复flaky测试问题。

修正FP8检查点格式。

修复LoRA解析失败的错误消息。


新功能与增强(Features & Enhancements)

支持bitsandbytes量化和QLoRA。

支持返回max_model_len的OpenAI模型响应。

支持GPU/CPU交换的BlockManagerV2。

支持image processor。

支持prompt_logprobs与SamplingParams.detokenize。

增强MoE基准测试与调优脚本。

添加自定义Op接口。

ChatCompletionRequest中添加add_special_tokens。

添加nightly benchmarks。

添加Sequoia为赞助商。

添加ProposerWorkerBase抽象类。

添加stream_options支持。

支持多LoRA适配器的generate()。

改进LoRA嵌入分片加载方法。

允许多次调用get_open_port。

FP8层转用CUTLASS内核。

添加OpenAI视觉API支持。

改变FP8检查点格式。

CUDA图添加输出缓冲区减少内存占用。

初始支持LLaVA-NeXT模型。

继续实现CompletionRequest的stream_options。


性能优化

优化CUTLASS内核以使用GPU上的比例值。

更新Cutlass fp8配置。

优化内核处理,传递设备指针。

后端减少不必要的副本。

增加融合TopK_Softmax内核支持。

动态每令牌激活量量化。

优化MoE配置以适应FP8。


文档与杂项(Miscellaneous)

修复类型注释与代码简化。

更新transformers版本记录。

添加自定义操作使用TORCH_LIBRARY。

文档中添加赞助商、限制说明并排序赞助商列表。

更新collect_env.py。


前端与用户界面(Frontend/UI)

OpenAI工具支持命名函数。

支持返回模型最大长度。

更新Outlines集成至Guide。

ChatCompletionRequest功能扩展。


内核与硬件优化(Kernel & Hardware)

重构CUTLASS内核。

更新CUTLass fp8配置。

为MoE层启用融合TopK_Softmax内核。

添加GPU架构守卫减少二进制体积。

修正Mixtral FP8检查点加载。

重新调整Mixtral MoE配置。

动态每令牌激活量量化。

使用pytorch sdpa数学后端做朴素注意力计算。

其他版本
最近更新软件·Linux 软件更新列表
小鱼易连 [网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏
刚刚
小鱼易连 [网络] 小鱼易连 3.10.0.23021 ARM64/麒麟,鲲鹏
刚刚
Brave Browser [网络] Brave Browser 1.73.91 ARM64
刚刚
Brave Browser [网络] Brave Browser 1.73.91 64位
刚刚
Slack [应用软件] Slack 4.41.97 64位
刚刚
Cursor [开发] Cursor 0.42.5 64位
昨天 21:26
WPS 365 [应用软件] WPS 365 12.8.2.18605 龙芯
昨天 21:26
WPS 365 [应用软件] WPS 365 12.8.2.18605 ARM64
昨天 21:23
WPS 365 [应用软件] WPS 365 12.8.2.18605 MIPS64EL
昨天 21:23
WPS Office [应用软件] WPS Office 12.1.0.17900 64位
昨天 21:21
新软件·Linux 新软件列表
Cursor [开发] Cursor 0.42.5 64位
昨天 21:26
VMware Workstation [系统工具] VMware Workstation 17.6.1 64位
11-19
微信 [网络] 微信 4.0.0 龙芯
11-11
微信 [网络] 微信 4.0.0 ARM64
11-11
微信 [网络] 微信 4.0.0 64位
11-11
Another Redis Desktop Manager [开发] Another Redis Desktop Manager 1.7.0 ARM64
11-10
115浏览器 [网络] 115浏览器 27.0.6.9 64位
11-09
Python 3.13 [开发] Python 3.13 3.13.0 64位
11-07
Python 3.12 [开发] Python 3.12 3.12.7 64位
11-07
Python 3.11 [开发] Python 3.11 3.11.10 64位
11-07