操作系统
Linux
最近更新
2024年09月06日
使用许可
开源
语言
不支持中文
文件大小
161.96 MB

vLLM(very Large Language Model)是一款用于大型语言模型(LLM)的高吞吐量和内存效率的推理和服务引擎。


以下是对vLLM的详细介绍及其功能特点:

  1. 高效性能:vLLM旨在提供先进的服务吞吐量,其性能高达HuggingFace Transformers的24倍,而无需进行任何模型架构的改变。这得益于其新的注意力算法PagedAttention,可以有效地管理注意力的键和值。
  2. 动态批处理请求:vLLM支持动态批处理请求,这有助于提高处理效率和响应速度。
  3. 优化CUDA内核:vLLM配备了优化好的CUDA内核,可以充分利用GPU的计算能力,进一步提升推理速度。
  4. 无缝集成:vLLM可以无缝集成与流行的HuggingFace模型,支持包括GPT-2(gpt2、gpt2-xl等)和OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)在内的架构。
  5. 分布式推理支持:vLLM支持张量并行以支持分布式推理,这可以在多台机器上并行处理请求,进一步提高处理效率。
  6. 兼容性和扩展性:vLLM兼容OpenAI的API服务,使得用户可以轻松地将现有的应用程序或服务迁移到vLLM平台上。同时,由于其开放源代码和可扩展的架构,用户可以根据自己的需求进行定制和扩展。
  7. 流输出:vLLM支持流输出,这意味着它可以实时生成和处理文本输出,适用于需要实时响应的场景。


0.6.0 版本更新说明:

性能更新

我们很高兴宣布更快的 vLLM,其吞吐量比 v0.5.3 提高了两倍。默认参数应该能实现显著的速度提升,但我们建议您也尝试开启多步调度。您可以通过在引擎参数中设置 --num-scheduler-steps 8 来做到这一点。请注意,它仍然有一些限制并且正在积极强化中。

  • 多步调度现在支持 LLMEngine 和 log_probs。
  • 异步输出处理器将输出数据结构的构造与 GPU 工作重叠,实现了 12% 的吞吐量增长。
  • 使用 FlashInfer 后端进行 FP8 KV 缓存,投机解码中的拒绝采样。


模型支持

  • 支持 bitsandbytes 8 位和 FP4 量化模型。
  • 新的 LLM:Exaone、Granite、Phi-3.5-MoE。
  • 为 mistral 模型提供了一种新的分词器模式,以使用原生的 mistral-commons 包。
  • 多模态:
  • 支持 LLaVA-Next、Phi-3-vision 模型的多图像输入。
  • Ultravox 支持多个音频片段。
  • ViTs 的 TP 支持。


硬件支持

  • NVIDIA GPU:为 H200 扩展 cuda 图大小。
  • AMD:Triton 实现 awq_dequantize 和 awq_gemm 以支持 AWQ。
  • Intel GPU:管道并行支持。
  • Neuron:上下文长度和令牌生成桶。
  • TPU:GKE 上的单主机和多主机 TPU,异步输出处理。


生产特性

  • 开放 AI 兼容的 Tools API + Hermes 和 Mistral 模型的流式传输!
  • 添加来自 OpenAI 协议的 json_schema 支持。
  • 启用分块预填充和前缀缓存一起使用。
  • 离线聊天中的多模态支持,以及 OpenAI 前端中的多个多模态项目。


其他

  • 支持在 benchmark_throughput.py 中对异步引擎进行基准测试。
  • 与 torch.compile 集成的进展:避免 Dynamo guard 评估开销,跳过用于分析的编译。

其他版本
最近更新软件 - Linux 软件更新列表
MKVToolNix [媒体] MKVToolNix 87.0 Intel/Silicon
刚刚
Discord [网络] Discord 0.0.67 64位
刚刚
RunJS [开发] RunJS 3.0.0 ARM
刚刚
RunJS [开发] RunJS 3.0.0 ARM64
刚刚
RunJS [开发] RunJS 3.0.0 64位
刚刚
Postman [开发] Postman 11.11 ARM64
刚刚
Postman [开发] Postman 11.11 64位
刚刚
PostgreSQL 10 [开发] PostgreSQL 10 10.23 64位
刚刚
PostgreSQL 10 [开发] PostgreSQL 10 10.23 32位
刚刚
Sunshine [游戏工具] Sunshine 2024.906.213100 ARM64
刚刚
新软件 - Linux 新软件列表
PostgreSQL 10 [开发] PostgreSQL 10 10.23 64位
刚刚
PostgreSQL 10 [开发] PostgreSQL 10 10.23 32位
刚刚
爱享素材下载器 [网络] 爱享素材下载器 2.1.1 ARM64
09-04
爱享素材下载器 [网络] 爱享素材下载器 2.1.1 ARM
09-04
爱享素材下载器 [网络] 爱享素材下载器 2.1.1 64位
09-04
TeamDrive [网络] TeamDrive 5.2.0.3617 64位
09-02
ocenaudio [媒体] ocenaudio 3.14.2 64位
09-01
ocenaudio [媒体] ocenaudio 3.14.2 64位
09-01
ocenaudio [媒体] ocenaudio 3.14.2 64位
09-01
FontForge [媒体] FontForge 20230101 64位
08-31