0.4.3 版本更新说明:
本次更新日志总结了广泛的改进和修复,涵盖核心优化、分布式计算、内核改进、前端调整、模型支持、文档更新以及CI/构建流程优化等多个方面。具体亮点包括:
- 性能与效率提升:多项优化如更快的LoRA启用模型启动、动态前缀缓存加速、FP8线性层性能增强、CUDA图支持等,显著提升了模型运行效率。
- 模型支持与实现:新增了Snowflake Arctic、E5-Mistral、IBM Granite Code、Qwen-2、LLaVA等模型的实现与支持,以及对GPTQ Marlin稀疏结构的支持。
- 分布式与并行计算:对分布式计算的多方面改进,包括PyNCCL组支持、自定义全减操作重构以支持多TP组、P2P访问检查优化等,增强了大规模并行处理能力。
- 内核与硬件适配:针对不同硬件的内核优化,如对AMD GPU的Punica内核支持、NVIDIA的float8_e4m3支持,以及对CUTLASS内核的增强,提升了兼容性和性能。
- 前端与用户体验:前端调整,如自动检测vLLM-tensorized模型、聊天API中自定义角色的重启用、支持OpenAI批量文件格式,以及对交互体验的优化。
- 文档与社区互动:文档更新,包含API参考、离线推理示例、赞助商致谢等,同时修复了文档中的错误并简化了内容。还添加了第四次社区聚会的公告。
- 测试与稳定性:修复了多项bug,如CLI参数错误、模型dtype转换、通信超时问题等,以及加强了测试套件,确保了软件的健壮性和可靠性。