2026-04-27

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

vLLM v0.20.0：752 commits、320 贡献者。默认 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 默认、TurboQuant 2-bit KV cache 4 倍容量。

vLLM v0.20.0 是大版本，752 commits、320 贡献者。重点：

默认 CUDA 升到 13.0、PyTorch 2.11、Transformers v5 相容、Python 3.14 支援
FlashAttention 4 重新啟用为默认 MLA prefill backend
TurboQuant 2-bit KV cache 把 KV cache 容量提到 4 倍、内存成本更低
初步支援 DeepSeek V4 / Hunyuan v3 / Granite 4.1 Vision

实战筆记

vLLM 是事实上的開源推论 runtime。CUDA 13 / PyTorch 2.11 把自託管的門檻拉高 — 舊的 base image 採用 v0.20.0 前需要重建。

2-bit KV cache（TurboQuant）是经济意义最大的改变：同 GPU 内存下 4 倍 KV 容量，意味著相同硬件预算可跑更长 context 或更大 batch。生產自託管推论的話，这改变部署算式。自己跑质量 eval — 2-bit KV 在长 context 通常有微小但可量测的影响。

来源

vLLM v0.20.0 release notes ↗

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

实战筆记

来源

标签