0.5.0 版本更新说明:
构建与CI/CD改进
同时构建所有扩展的CMake目标。
为更长的CPU测试启用Intel队列。
AWS环境下的新CI模板。
简化模型加载流程的HfRunner更新。
减少CPU CI执行时间。
软标记AMD测试以防止阻塞。
添加输入测试。
更新vision测试。
移除Ray健康检查。
改善测试稳健性,使用上下文管理器。
小型CPU队列用于文档构建。
Docker容器挂载buildkite代理上传基准结果。
错误修复(Bugfixes)
修复日志记录器初始化问题。
移除废弃的@abstractproperty。
修复prefix缓存示例相关问题。
防止非生成模型调用LLM.encode。
路径拼写修正。
支持prompt_logprobs为0。
修复torch.compile与MultiprocessingGPUExecutor的兼容性。
修正pip安装setuptools导致的CPU后端问题。
修复因pip版本导致的问题。
解决环境变量覆盖的测试问题。
修复torch.compile错误。
修复CUTLASS支持检查的错误。
修复log消息关于默认最大模型长度。
使EngineArgs使用命名参数。
优雅关闭AsyncLLMEngine时不记录异常。
跳过特定条件下的计算。
修复DbrxFusedNormAttention的cache_config问题。
修复LoRA适配器的KeyError。
修复flaky测试问题。
修正FP8检查点格式。
修复LoRA解析失败的错误消息。
新功能与增强(Features & Enhancements)
支持bitsandbytes量化和QLoRA。
支持返回max_model_len的OpenAI模型响应。
支持GPU/CPU交换的BlockManagerV2。
支持image processor。
支持prompt_logprobs与SamplingParams.detokenize。
增强MoE基准测试与调优脚本。
添加自定义Op接口。
ChatCompletionRequest中添加add_special_tokens。
添加nightly benchmarks。
添加Sequoia为赞助商。
添加ProposerWorkerBase抽象类。
添加stream_options支持。
支持多LoRA适配器的generate()。
改进LoRA嵌入分片加载方法。
允许多次调用get_open_port。
FP8层转用CUTLASS内核。
添加OpenAI视觉API支持。
改变FP8检查点格式。
CUDA图添加输出缓冲区减少内存占用。
初始支持LLaVA-NeXT模型。
继续实现CompletionRequest的stream_options。
性能优化
优化CUTLASS内核以使用GPU上的比例值。
更新Cutlass fp8配置。
优化内核处理,传递设备指针。
后端减少不必要的副本。
增加融合TopK_Softmax内核支持。
动态每令牌激活量量化。
优化MoE配置以适应FP8。
文档与杂项(Miscellaneous)
修复类型注释与代码简化。
更新transformers版本记录。
添加自定义操作使用TORCH_LIBRARY。
文档中添加赞助商、限制说明并排序赞助商列表。
更新collect_env.py。
前端与用户界面(Frontend/UI)
OpenAI工具支持命名函数。
支持返回模型最大长度。
更新Outlines集成至Guide。
ChatCompletionRequest功能扩展。
内核与硬件优化(Kernel & Hardware)
重构CUTLASS内核。
更新CUTLass fp8配置。
为MoE层启用融合TopK_Softmax内核。
添加GPU架构守卫减少二进制体积。
修正Mixtral FP8检查点加载。
重新调整Mixtral MoE配置。
动态每令牌激活量量化。
使用pytorch sdpa数学后端做朴素注意力计算。