2026-06-08 — 回閲覧

TensorRT-LLM rc17 が SM121（DGX Spark）向けに NVFP4 MoE バックエンドと NVFP4 KV キャッシュを追加

TensorRT-LLM v1.3.0rc17（6 月 2 日）は SM120/SM121 限定で有効化される FlashInfer NVFP4 MoE バックエンドを追加し、trtllm-gen attention で NVFP4 KV キャッシュを有効化、さらに SM120/121 での qwen3 ハングも修正——DGX Spark のコンシューマ向け Blackwell に対する具体的な対応。

何がリリースされたか

NVIDIA は 2026 年 6 月 2 日に TensorRT-LLM v1.3.0rc17 をタグ付けした。長い変更ログの中に、データセンターのラックではなく単一の Grace Blackwell マシンで大規模モデルを動かす人にとって特に重要な 2 つの項目が埋もれている。

1 つ目は新機能：「Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron」（PR #13773）。2 つ目：「Enable NVFP4 KV cache support in trtllm-gen attention」（PR #12544）。そして対象者をひっそりと示すバグ修正もある——「Fix qwen3 hang on SM120/121」（PR #14424）。

なぜ SM121 が見出しなのか

SM120 と SM121 はコンシューマ向け Blackwell の compute capability だ。SM120 は RTX 50 シリーズ、SM121 は DGX Spark 内の GB10 である。これらはデータセンター Blackwell（SM100）とは同じではない。SM12x のテンソルコアのプログラミングモデルは、データセンター Blackwell の tcgen05 よりも Ampere の mma.sync に近く、そのためデータセンター部品向けにコンパイルされたカーネルは、SM121 向けに再ビルドされるまで GB10 では動作しない。

そのギャップこそが、「SM120/SM121 限定で有効化される」バックエンドがニュースになる理由だ。これらのターゲット向けに明示的にコンパイルされた FlashInfer NVFP4 Mixture-of-Experts（MoE）パスがあるということは、Nemotron 級の MoE モデルが、より遅い汎用パスにフォールバックするのではなく、DGX Spark 上で FP4 テンソルコアを使えることを意味する。NVIDIA フォーラムのユーザーは公式の SM121 ソフトウェアロードマップを何週間も求めてきた。rc17 はそれが少しずつ埋まっていく一片だ。

物語の KV キャッシュ側

NVFP4 KV キャッシュの項目はもう 1 つのレバーだ。NVIDIA 自身のエンジニアリング記事によれば、NVFP4 KV キャッシュは FP8 と比べてキャッシュメモリ使用量を最大 50% 削減し、公開されたベンチマーク全体で精度低下は 1% 未満だ（例えば Qwen3-480B-A35B では、MMLU-PRO が FP8 の 78.1% に対し 77.4%、Ruler 64K が 95.5% に対し 94.6%）。値は attention の計算が走る前に NVFP4 から FP8 へ逆量子化される。

rc17 のレバー	何が得られるか
FlashInfer NVFP4 MoE（SM120/SM121）	GB10 / RTX 50 向けに実際にコンパイルできる FP4 エキスパートカーネル
NVFP4 KV キャッシュ（trtllm-gen attention）	KV メモリは FP8 の約半分；context や batch を倍にする余地
qwen3 SM120/121 ハング修正	コンシューマ Blackwell 上の Qwen3 のハードブロッカーを除去

128GB のユニファイドメモリ部品では、KV キャッシュのバイト数を半減させることはマイクロベンチマークの誇示ではない——長 context のセッションが収まるか、スラッシングするかの違いだ。NVIDIA は大規模な数値で、同じ NVFP4 KV キャッシュが context 長と batch サイズを最大で約 2 倍にし、最初のトークンまでの時間（TTFT）を最大 3 倍改善できると報告しているが、これらの見出し数値はデータセンター Blackwell からのものであり、実測の GB10 実行ではない。

実務メモ

これはリリース候補（rc17）であり、リリース自体が既知の問題を明記している：DeepSeek V3.2 は長時間の agg/disagg 性能テスト中に不正メモリアクセスでクラッシュすることがある。rc17 を DGX Spark に持ってきて FP4 MoE パスを試すなら、本番ではなく評価として扱うこと——正確な build を固定し、KV キャッシュ量子化を自分のワークロードで信頼する前に自前で精度のスポットチェックを行い、同梱の flashinfer-python 自体もリリース候補（0.6.12rc2 に更新）である点に注意すること。NVFP4 KV キャッシュには正しいレシピで量子化されたモデル（Model Optimizer による訓練後または量子化対応学習）も必要で、任意の FP16 チェックポイントで切り替えられるランタイムフラグではない。

あまり考慮されていない視点

静かな物語は、NVFP4 対応が「データセンター Blackwell で動く」から「あなたのオフィスにあるチップ向けにコンパイルできる」へとスタックの下方へ移行しつつあるということだ。公開された NVFP4 の数値の大半——50% の KV 節約、3 倍の TTFT、あの精度表——は SM100 のデータセンター部品で測定されたものだが、SM12x の命令セットは本当に異なる。したがって DGX 所有者にとって興味深い未解決の問いは、NVFP4 が原理的に役立つかどうかではなく、SM121 への再コンパイル後にデータセンターの恩恵が実際にどれだけ生き残るのか——そこではテンソルコアのパスがより Ampere に近く見える。rc17 はカーネルを与えた。正直な、GB10 で測定された差分はまだ示されていない。