Builder Daily

2026-04-27

vLLM v0.20.0:DeepSeek V4、PyTorch 2.11、FlashAttention 4

vLLM v0.20.0:752 commits、320 貢獻者。預設 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 預設、TurboQuant 2-bit KV cache 4 倍容量。

vLLM v0.20.0 是大版本,752 commits、320 貢獻者。重點:

實戰筆記

vLLM 是事實上的開源推論 runtime。CUDA 13 / PyTorch 2.11 把自託管的門檻拉高 — 舊的 base image 採用 v0.20.0 前需要重建。

2-bit KV cache(TurboQuant)是經濟意義最大的改變:同 GPU 記憶體下 4 倍 KV 容量,意味著相同硬體預算可跑更長 context 或更大 batch。生產自託管推論的話,這改變部署算式。自己跑品質 eval — 2-bit KV 在長 context 通常有微小但可量測的影響。


來源

標籤

請喝咖啡