2026-06-08 — 回閲覧
TensorRT-LLM rc17 が SM121(DGX Spark)向けに NVFP4 MoE バックエンドと NVFP4 KV キャッシュを追加
TensorRT-LLM v1.3.0rc17(6 月 2 日)は SM120/SM121 限定で有効化される FlashInfer NVFP4 MoE バックエンドを追加し、trtllm-gen attention で NVFP4 KV キャッシュを有効化、さらに SM120/121 での qwen3 ハングも修正——DGX Spark のコンシューマ向け Blackwell に対する具体的な対応。
何がリリースされたか
NVIDIA は 2026 年 6 月 2 日に TensorRT-LLM v1.3.0rc17 をタグ付けした。長い変更ログの中に、データセンターのラックではなく単一の Grace Blackwell マシンで大規模モデルを動かす人にとって特に重要な 2 つの項目が埋もれている。
1 つ目は新機能:「Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron」(PR #13773)。2 つ目:「Enable NVFP4 KV cache support in trtllm-gen attention」(PR #12544)。そして対象者をひっそりと示すバグ修正もある——「Fix qwen3 hang on SM120/121」(PR #14424)。
なぜ SM121 が見出しなのか
SM120 と SM121 はコンシューマ向け Blackwell の compute capability だ。SM120 は RTX 50 シリーズ、SM121 は DGX Spark 内の GB10 である。これらはデータセンター Blackwell(SM100)とは同じではない。SM12x のテンソルコアのプログラミングモデルは、データセンター Blackwell の tcgen05 よりも Ampere の mma.sync に近く、そのためデータセンター部品向けにコンパイルされたカーネルは、SM121 向けに再ビルドされるまで GB10 では動作しない。
そのギャップこそが、「SM120/SM121 限定で有効化される」バックエンドがニュースになる理由だ。これらのターゲット向けに明示的にコンパイルされた FlashInfer NVFP4 Mixture-of-Experts(MoE)パスがあるということは、Nemotron 級の MoE モデルが、より遅い汎用パスにフォールバックするのではなく、DGX Spark 上で FP4 テンソルコアを使えることを意味する。NVIDIA フォーラムのユーザーは公式の SM121 ソフトウェアロードマップを何週間も求めてきた。rc17 はそれが少しずつ埋まっていく一片だ。
物語の KV キャッシュ側
NVFP4 KV キャッシュの項目はもう 1 つのレバーだ。NVIDIA 自身のエンジニアリング記事によれば、NVFP4 KV キャッシュは FP8 と比べてキャッシュメモリ使用量を最大 50% 削減し、公開されたベンチマーク全体で精度低下は 1% 未満だ(例えば Qwen3-480B-A35B では、MMLU-PRO が FP8 の 78.1% に対し 77.4%、Ruler 64K が 95.5% に対し 94.6%)。値は attention の計算が走る前に NVFP4 から FP8 へ逆量子化される。
| rc17 のレバー | 何が得られるか |
|---|---|
| FlashInfer NVFP4 MoE(SM120/SM121) | GB10 / RTX 50 向けに実際にコンパイルできる FP4 エキスパートカーネル |
| NVFP4 KV キャッシュ(trtllm-gen attention) | KV メモリは FP8 の約半分;context や batch を倍にする余地 |
| qwen3 SM120/121 ハング修正 | コンシューマ Blackwell 上の Qwen3 のハードブロッカーを除去 |
128GB のユニファイドメモリ部品では、KV キャッシュのバイト数を半減させることはマイクロベンチマークの誇示ではない——長 context のセッションが収まるか、スラッシングするかの違いだ。NVIDIA は大規模な数値で、同じ NVFP4 KV キャッシュが context 長と batch サイズを最大で約 2 倍にし、最初のトークンまでの時間(TTFT)を最大 3 倍改善できると報告しているが、これらの見出し数値はデータセンター Blackwell からのものであり、実測の GB10 実行ではない。
実務メモ
これはリリース候補(rc17)であり、リリース自体が既知の問題を明記している:DeepSeek V3.2 は長時間の agg/disagg 性能テスト中に不正メモリアクセスでクラッシュすることがある。rc17 を DGX Spark に持ってきて FP4 MoE パスを試すなら、本番ではなく評価として扱うこと——正確な build を固定し、KV キャッシュ量子化を自分のワークロードで信頼する前に自前で精度のスポットチェックを行い、同梱の flashinfer-python 自体もリリース候補(0.6.12rc2 に更新)である点に注意すること。NVFP4 KV キャッシュには正しいレシピで量子化されたモデル(Model Optimizer による訓練後または量子化対応学習)も必要で、任意の FP16 チェックポイントで切り替えられるランタイムフラグではない。
あまり考慮されていない視点
静かな物語は、NVFP4 対応が「データセンター Blackwell で動く」から「あなたのオフィスにあるチップ向けにコンパイルできる」へとスタックの下方へ移行しつつあるということだ。公開された NVFP4 の数値の大半——50% の KV 節約、3 倍の TTFT、あの精度表——は SM100 のデータセンター部品で測定されたものだが、SM12x の命令セットは本当に異なる。したがって DGX 所有者にとって興味深い未解決の問いは、NVFP4 が原理的に役立つかどうかではなく、SM121 への再コンパイル後にデータセンターの恩恵が実際にどれだけ生き残るのか——そこではテンソルコアのパスがより Ampere に近く見える。rc17 はカーネルを与えた。正直な、GB10 で測定された差分はまだ示されていない。