2026-04-27

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

vLLM v0.20.0：752 commits、320 貢獻者。預設 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 預設、TurboQuant 2-bit KV cache 4 倍容量。

vLLM v0.20.0 是大版本，752 commits、320 貢獻者。重點：

預設 CUDA 升到 13.0、PyTorch 2.11、Transformers v5 相容、Python 3.14 支援
FlashAttention 4 重新啟用為預設 MLA prefill backend
TurboQuant 2-bit KV cache 把 KV cache 容量提到 4 倍、記憶體成本更低
初步支援 DeepSeek V4 / Hunyuan v3 / Granite 4.1 Vision

實戰筆記

vLLM 是事實上的開源推論 runtime。CUDA 13 / PyTorch 2.11 把自託管的門檻拉高 — 舊的 base image 採用 v0.20.0 前需要重建。

2-bit KV cache（TurboQuant）是經濟意義最大的改變：同 GPU 記憶體下 4 倍 KV 容量，意味著相同硬體預算可跑更長 context 或更大 batch。生產自託管推論的話，這改變部署算式。自己跑品質 eval — 2-bit KV 在長 context 通常有微小但可量測的影響。

來源

vLLM v0.20.0 release notes ↗

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

實戰筆記

來源

標籤