vLLM for Python3.11 0.4.1 for linux 64位正式版历史版本

0.4.1 版本更新说明：

一、新增功能及改进

文档改进：通过 @sangstar 为 tensorizer 的使用提供了更清晰的说明，增强了用户理解和使用便利性。
LM 格式强制器：通过 @noamgat 添加了引导解码支持，提升了模型解码的灵活性和准确性。
模型服务：通过 @hmellor 的改进，现在模型可以在多个名称下提供服务，增强了模型的复用性和灵活性。
自定义功能：通过 @youkaichao 添加了在分布式推理中记录函数调用以进行调试的功能，提升了调试效率。
生成配置支持：通过 @simon-mo 的更新，现在支持从 generation_config.json 中获取 eos_token_id，使得配置更加灵活。

二、Bug 修复

三、内核与性能优化

模型加载代码重构：通过 @Yard1 对模型加载代码进行了重构，提高了代码的可读性和可维护性。
推测解码集成：通过 @cadedaniel 将推测解码与 LLMEngine 集成，提高了解码的速度和准确性。
CPU/AMD 测试优化：通过 @cadedaniel 将 CPU/AMD 测试移动到等待之后，优化了测试流程。
RayWorkerVllm 替换：通过 @youkaichao 替换窄用途的 RayWorkerVllm 为通用的 WorkerWrapper，减少了代码重复，提高了代码复用性。

四、版本与依赖更新

五、其他

本次更新日志涵盖了新增功能、Bug 修复、内核与性能优化、版本与依赖更新以及其他方面的改进，旨在提升软件的稳定性、易用性和性能。感谢您的使用，如有任何问题或建议，请随时与我们联系。