0.4.1 版本更新说明:
一、新增功能及改进
- 文档改进:通过 @sangstar 为 tensorizer 的使用提供了更清晰的说明,增强了用户理解和使用便利性。
- LM 格式强制器:通过 @noamgat 添加了引导解码支持,提升了模型解码的灵活性和准确性。
- 模型服务:通过 @hmellor 的改进,现在模型可以在多个名称下提供服务,增强了模型的复用性和灵活性。
- 自定义功能:通过 @youkaichao 添加了在分布式推理中记录函数调用以进行调试的功能,提升了调试效率。
- 生成配置支持:通过 @simon-mo 的更新,现在支持从 generation_config.json 中获取 eos_token_id,使得配置更加灵活。
二、Bug 修复
- Ray Workers 性能分析:通过 @rickyyx 修复了使用 nsight 进行 ray workers 性能分析的问题。
- LoRA 加载检查:通过 @jeejeelee 修复了 LoRA 加载检查的问题,确保了模型加载的准确性和稳定性。
- 输出解析错误:通过 @elinx 修复了 trtllm 后端的输出解析错误,避免了潜在的输出错误。
- 类型注解:通过 @rkooo567 修复了关于 Python 版本对类型注解的限制问题,提高了代码的兼容性和健壮性。
- 异步引擎统计日志:通过 @ronensc 在 #4150 中修复了异步引擎中统计日志的丢失问题,保证了统计数据的完整性和准确性。
三、内核与性能优化
- 模型加载代码重构:通过 @Yard1 对模型加载代码进行了重构,提高了代码的可读性和可维护性。
- 推测解码集成:通过 @cadedaniel 将推测解码与 LLMEngine 集成,提高了解码的速度和准确性。
- CPU/AMD 测试优化:通过 @cadedaniel 将 CPU/AMD 测试移动到等待之后,优化了测试流程。
- RayWorkerVllm 替换:通过 @youkaichao 替换窄用途的 RayWorkerVllm 为通用的 WorkerWrapper,减少了代码重复,提高了代码复用性。
四、版本与依赖更新
- 版本发布:通过 @simon-mo 发布了 0.4.1 版本,包含上述修复和改进。
- Transformers 更新:通过 @njhill 将 transformers 升级到最新版本,确保与最新技术的兼容性。
五、其他
- CI/CD 改进:通过 @liangfu 添加了 neuron docker 和 ci 测试脚本,增强了持续集成和持续部署的自动化程度。
- 文档字符串修复:通过 @UranusSeven 修复了文档字符串中的错误,提高了文档的质量和准确性。
本次更新日志涵盖了新增功能、Bug 修复、内核与性能优化、版本与依赖更新以及其他方面的改进,旨在提升软件的稳定性、易用性和性能。感谢您的使用,如有任何问题或建议,请随时与我们联系。