2026-04-27
vLLM v0.20.0:DeepSeek V4、PyTorch 2.11、FlashAttention 4
vLLM v0.20.0:752 commits、320 貢獻者。預設 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 預設、TurboQuant 2-bit KV cache 4 倍容量。
vLLM v0.20.0 是大版本,752 commits、320 貢獻者。重點:
- 預設 CUDA 升到 13.0、PyTorch 2.11、Transformers v5 相容、Python 3.14 支援
- FlashAttention 4 重新啟用為預設 MLA prefill backend
- TurboQuant 2-bit KV cache 把 KV cache 容量提到 4 倍、記憶體成本更低
- 初步支援 DeepSeek V4 / Hunyuan v3 / Granite 4.1 Vision
實戰筆記
vLLM 是事實上的開源推論 runtime。CUDA 13 / PyTorch 2.11 把自託管的門檻拉高 — 舊的 base image 採用 v0.20.0 前需要重建。
2-bit KV cache(TurboQuant)是經濟意義最大的改變:同 GPU 記憶體下 4 倍 KV 容量,意味著相同硬體預算可跑更長 context 或更大 batch。生產自託管推論的話,這改變部署算式。自己跑品質 eval — 2-bit KV 在長 context 通常有微小但可量測的影響。