DGX Spark デプロイメモ
NVIDIA DGX Spark / GB10 コミュニティでのローカル LLM デプロイ知見。
2026-05-04
DGX Spark上のQwen3 MoE — NVFP4 vs FP8ベンチマークと実際に動く設定
GB10でのQwen3.6-35B-A3BとQwen3.5-122B-A10Bのコミュニティ検証済み数値:NVFP4+MTPで単一ユーザー55.9 tok/s、c=32で433 tok/s。TRITON-only MoEバックエンドの注意点とMTP+prefix-cache失敗モードを解説。
2026-05-03
DGX Spark デプロイメモ:コミュニティが 2026 Q2 に実際に踏んだ問題
NVIDIA Developer Forums で繰り返し現れる DGX Spark / GB10 のデプロイ落とし穴 6 つ(多くはハードウェアではなくソフトウェア起因)と、MoE + NVFP4 / MXFP4 についてのコミュニティ合意。
2026-05-02
GB10(SM121)でのllama.cpp NVFP4とMXFP4ビルドガイド
DGX Spark GB10(SM121)向けllama.cpp NVFP4/MXF4の完全なビルドフラグ。PR #22196マージ後、gpt-oss-120B MXF4でpp2048=1,980 tok/s、tg32=35 tok/sを達成。
2026-05-01
DGX SparkでvLLM vs llama.cpp vs Ollama — どの推論スタックを使うべきか
GB10推論スタック選択ガイド:MoE+高並列ならvLLM、MXFPプロンプト・単一ユーザーならllama.cpp、ゼロ設定開発ならOllama。NVFP4 tok/s比較付き。
2026-04-30
LiteLLM + Claude Code on DGX Spark — LANサービング設定とプロトコル変換
LiteLLMプロキシでClaude CodeのAPIコールをDGX Spark上のQwen3モデルにルーティング。設定・モデルエイリアスマッピング・レイテンシのトレードオフを解説。