0.5.3 版本更新说明:
模型支持
vLLM现在支持Meta Llama 3.1模型!
该模型使用FP8量化,在单个配备8xH100或8xA100的节点上运行。
BF16版本的模型应该能在多个节点上通过管道并行运行。如果你有快速的网络互联,你可能也会想要考虑全张量并行。
为了支持长上下文,已经添加了一种新的rope扩展方法,并且默认为Meta Llama 3.1系列模型启用了分块预填充。
支持Mistral-Nemo模型。
支持Chameleon模型。
为Mixtral提供管道并行支持。
硬件支持
对TPU支持进行了大量增强。
性能提升
在Marlin内核中增加了AWQ支持。这为现有的AWQ模型带来了显著(1.5-2倍)的性能改进!
朝向SPMD工作执行器的重构进展。
提升准备输入过程的改进进展。
针对管道并行的内存优化。
生产引擎
对管道并行和CPU卸载的正确性测试。
支持从HuggingFace动态加载LoRA适配器。
使用标准库的multiprocessing模块实现管道并行。
其他
实现了CPU卸载,现在你可以使用 --cpu-offload-gb 来控制用多少内存“扩展”RAM。
新的vllm CLI现已准备好接受测试。它包含三个命令:serve, complete, 和 chat。欢迎反馈和改进!
轮子包(wheels)现在在Ubuntu 20.04而非22.04上构建。