0.6.1 版本更新说明:
模型支持
增加了对Pixtral(mistralai/Pixtral-12B-2409)的支持。
增加了对Llava-Next-Video,Qwen-VL ,Qwen2-VL 的支持。
增加了LLaVA 和 InternVL2 模型 的多输入支持。
性能增强
对awq_gemm和awq_dequantize进行了内存优化,吞吐量提升2倍。
生产引擎
支持在API服务器中加载和卸载LoRA。
为批量运行器添加进度报告功能。
添加对NVIDIA ModelOpt静态缩放检查点的支持。
其他
更新Docker镜像以使用Python 3.12,以获得小幅性能提升。
增加了CODE_OF_CONDUCT.md 文件。