2026-06-10 — 回閲覧
llama.cpp b9555、Blackwell SM121向けネイティブNVFP4カーネルを搭載 — DGX Sparkの真の性能を解放
llama.cpp b9555がBlackwell SM121/GB10向けネイティブNVFP4 GEMMカーネルを搭載。FP16計算フォールバックを回避する初のビルドで、DGX Sparkのシングルユーザーデコードスループットが推定30–40%向上。
このリリース
2026年6月8日にggml-org GitHubリポジトリでリリースされたllama.cpp b9555は、DGX Sparkユーザーが待ち望んでいたビルドだ。CUDAバックエンドが初めて、Blackwell SM121——DGX Spark内のGB10チップの演算アーキテクチャ——向けにコンパイルされたネイティブNVFP4行列積カーネルを搭載した。これまでSpark上でNVFP4量子化モデルを動かすには、TensorRT-LLM(高速だが運用コストが高い)かvLLM(高スループットだがシングルユーザーにオーバーヘッドがある)が必要だった。llama.cppの軽量なシングルバイナリ展開モデルが、ついてくるハードウェアアクセラレーションを手に入れた。
GB10でNVFP4が重要な理由
Grace Blackwell GB10 SoCには2つの根本的な優位性がある。Grace CPUとBlackwell GPU間の900 GB/s双方向NVLink-C2C接続と、NVFP4などのサブ8ビット形式に対するネイティブテンソルコアサポートだ。推論ワークロードにとって、NVFP4はすでにコンパクトなFP8表現のメモリフットプリントをさらに半分にし、1デバイスあたりのモデル容量に直接変換される。
Qwen3-30BはFP16形式でSparkの128GB統合メモリの約60GBを消費するが、NVFP4では約15GBとなり、システムRAMへの溢れなしに128KトークンのKVキャッシュに十分な余裕が生まれる。
b9555で実際に何が変わったか
b9555以前、llama.cppのCUDAバックエンドはBlackwellハードウェア上でNVFP4量子化GGUFファイルを読み込めたが、行列積演算はソフトウェアの逆量子化→乗算パスにフォールバックしていた。テンソルコアを活用しないまま、FP16の計算速度でNVFP4の重みを実行していた——カーネルレベルでは帯域幅節約が打ち消されていた。
b9555のPRは、NVFP4入力をBlackwellのブロックスケールGEMMテンソルコアパスに直接接続した。NVIDIA CUTLASS 4.xとTensorRT-LLMのSM121カーネルが使うのと同じパスだ。密なレイヤーとエキスパート(MoE)レイヤー両方でNVFP4テンソル名とスケールファクターテンソルを処理する実装は、以前の実験的パッチがMoEモデルで完全に解決できていなかった部分だ。
期待される性能向上
従来のフォールバックパスを使うと、Llama-4-Scout-17BのNVFP4はDGX Sparkシングルユーザーモードで約45–50 tokens/sのデコード速度だった。SM121ネイティブカーネルパスにより、同モデル・同量子化でTensorRT-LLMの参考値65–70 tokens/sとの差が縮まることが期待される——サービングスタックやモデルの重みを変えることなく30–40%のスループット向上だ。
DGX Sparkデプロイへの実践的な意味
DGX Sparkでローカル推論を実行するチームにとって、b9555はllama.cppをNVFP4モデルの最有力候補にする。歴史的なフレームワーク選択ロジックは変わらない——シングルユーザー対話型にはllama.cpp、並行マルチユーザーやバッチにはvLLM。ただしb9555以降、シングルユーザーシナリオでのvLLM NVFP4パスとの性能差は2026年で最も縮まっている。
結論:DGX Spark上でNVFP4 GGUFモデルを動かしており、運用の簡便さからllama.cppを使い続けているなら、b9555に更新してベンチマークを再実行することを強くお勧めする。