Builder Daily

2026-04-27

vLLM v0.20.0:DeepSeek V4、PyTorch 2.11、FlashAttention 4

vLLM v0.20.0:752 commits、320 名のコントリビューター。デフォルトで CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 がデフォルト、TurboQuant 2-bit KV cache で 4 倍の容量。

vLLM v0.20.0 は大型リリースで、752 commits、320 名のコントリビューターによるものです。要点は次の通りです。

実装ノート

vLLM は事実上のオープンソース推論ランタイムです。CUDA 13 / PyTorch 2.11 はセルフホストの基準を引き上げます。古いベースイメージは v0.20.0 採用前にリビルドが必要です。

経済インパクトが最も大きい変更は 2-bit KV cache(TurboQuant)です。同じ GPU メモリで 4 倍の KV 容量ということは、同一ハードウェア予算でより長い context、もしくはより大きな batch を回せるということです。本番でセルフホスト推論を回しているなら、デプロイ計算が変わります。品質 eval は自分で回しましょう。長い context では 2-bit KV は通常、わずかですが計測可能な影響が出ます。


ソース

タグ

チップ