0.4.0 版本更新说明:
模型
新模型:Command+R, Qwen2 MoE, DBRX, XVerse, Jais。
新的视觉语言模型:LLaVA。
生产特性
自动前缀缓存,支持长系统提示在请求之间自动缓存。使用 --enable-prefix-caching 标志来启用它。
在 OpenAI 服务器中支持任意 JSON,使用 --use-delay 标志来改进多个请求之间的首个令牌生成时间,以及 EOS 抑制。
在分块预填充调度器和投机解码方面取得了进展。
自定义的 all-reduce 内核在进行了更多的鲁棒性修复后已重新启用。
由于其存在的缺陷,已替换 cupy 依赖。
硬件
改进了对 AWS Inferentia 的 Neuron 支持。
基于 CMake 的构建系统,以提高可扩展性。
生态系统
广泛的服务基准测试重构。
使用统计信息收集