2026-04-27
vLLM v0.20.0:DeepSeek V4、PyTorch 2.11、FlashAttention 4
vLLM v0.20.0:752 commits、320 名のコントリビューター。デフォルトで CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 がデフォルト、TurboQuant 2-bit KV cache で 4 倍の容量。
vLLM v0.20.0 は大型リリースで、752 commits、320 名のコントリビューターによるものです。要点は次の通りです。
- デフォルト CUDA を 13.0 に引き上げ、PyTorch 2.11、Transformers v5 互換、Python 3.14 サポート
- FlashAttention 4 が MLA prefill バックエンドとしてデフォルト復帰
- TurboQuant 2-bit KV cache で KV cache 容量を 4 倍に、メモリコストを低減
- DeepSeek V4 / Hunyuan v3 / Granite 4.1 Vision の初期サポート
実装ノート
vLLM は事実上のオープンソース推論ランタイムです。CUDA 13 / PyTorch 2.11 はセルフホストの基準を引き上げます。古いベースイメージは v0.20.0 採用前にリビルドが必要です。
経済インパクトが最も大きい変更は 2-bit KV cache(TurboQuant)です。同じ GPU メモリで 4 倍の KV 容量ということは、同一ハードウェア予算でより長い context、もしくはより大きな batch を回せるということです。本番でセルフホスト推論を回しているなら、デプロイ計算が変わります。品質 eval は自分で回しましょう。長い context では 2-bit KV は通常、わずかですが計測可能な影響が出ます。