DGX Spark デプロイメモ

NVIDIA DGX Spark / GB10 コミュニティでのローカル LLM デプロイ知見。

2026-05-04

DGX Spark上のQwen3 MoE — NVFP4 vs FP8ベンチマークと実際に動く設定

GB10でのQwen3.6-35B-A3BとQwen3.5-122B-A10Bのコミュニティ検証済み数値：NVFP4+MTPで単一ユーザー55.9 tok/s、c=32で433 tok/s。TRITON-only MoEバックエンドの注意点とMTP+prefix-cache失敗モードを解説。

2026-05-03

NVIDIA Developer Forums で繰り返し現れる DGX Spark / GB10 のデプロイ落とし穴 6 つ（多くはハードウェアではなくソフトウェア起因）と、MoE + NVFP4 / MXFP4 についてのコミュニティ合意。

2026-05-02

DGX Spark GB10（SM121）向けllama.cpp NVFP4/MXF4の完全なビルドフラグ。PR #22196マージ後、gpt-oss-120B MXF4でpp2048=1,980 tok/s、tg32=35 tok/sを達成。

2026-05-01

GB10推論スタック選択ガイド：MoE+高並列ならvLLM、MXFPプロンプト・単一ユーザーならllama.cpp、ゼロ設定開発ならOllama。NVFP4 tok/s比較付き。

2026-04-30

LiteLLMプロキシでClaude CodeのAPIコールをDGX Spark上のQwen3モデルにルーティング。設定・モデルエイリアスマッピング・レイテンシのトレードオフを解説。