2026-04-27

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

vLLM v0.20.0：752 commits、320 名のコントリビューター。デフォルトで CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 がデフォルト、TurboQuant 2-bit KV cache で 4 倍の容量。

vLLM v0.20.0 は大型リリースで、752 commits、320 名のコントリビューターによるものです。要点は次の通りです。

デフォルト CUDA を 13.0 に引き上げ、PyTorch 2.11、Transformers v5 互換、Python 3.14 サポート
FlashAttention 4 が MLA prefill バックエンドとしてデフォルト復帰
TurboQuant 2-bit KV cache で KV cache 容量を 4 倍に、メモリコストを低減
DeepSeek V4 / Hunyuan v3 / Granite 4.1 Vision の初期サポート

実装ノート

vLLM は事実上のオープンソース推論ランタイムです。CUDA 13 / PyTorch 2.11 はセルフホストの基準を引き上げます。古いベースイメージは v0.20.0 採用前にリビルドが必要です。

経済インパクトが最も大きい変更は 2-bit KV cache（TurboQuant）です。同じ GPU メモリで 4 倍の KV 容量ということは、同一ハードウェア予算でより長い context、もしくはより大きな batch を回せるということです。本番でセルフホスト推論を回しているなら、デプロイ計算が変わります。品質 eval は自分で回しましょう。長い context では 2-bit KV は通常、わずかですが計測可能な影響が出ます。

ソース

vLLM v0.20.0 release notes ↗

vLLM v0.20.0：DeepSeek V4、PyTorch 2.11、FlashAttention 4

実装ノート

ソース

タグ