Builder Daily

DGX Spark デプロイメモ

NVIDIA DGX Spark / GB10 コミュニティでのローカル LLM デプロイ知見。

2026-05-04

DGX Spark上のQwen3 MoE — NVFP4 vs FP8ベンチマークと実際に動く設定

GB10でのQwen3.6-35B-A3BとQwen3.5-122B-A10Bのコミュニティ検証済み数値:NVFP4+MTPで単一ユーザー55.9 tok/s、c=32で433 tok/s。TRITON-only MoEバックエンドの注意点とMTP+prefix-cache失敗モードを解説。

2026-05-03

DGX Spark デプロイメモ:コミュニティが 2026 Q2 に実際に踏んだ問題

NVIDIA Developer Forums で繰り返し現れる DGX Spark / GB10 のデプロイ落とし穴 6 つ(多くはハードウェアではなくソフトウェア起因)と、MoE + NVFP4 / MXFP4 についてのコミュニティ合意。

2026-05-02

GB10(SM121)でのllama.cpp NVFP4とMXFP4ビルドガイド

DGX Spark GB10(SM121)向けllama.cpp NVFP4/MXF4の完全なビルドフラグ。PR #22196マージ後、gpt-oss-120B MXF4でpp2048=1,980 tok/s、tg32=35 tok/sを達成。

2026-05-01

DGX SparkでvLLM vs llama.cpp vs Ollama — どの推論スタックを使うべきか

GB10推論スタック選択ガイド:MoE+高並列ならvLLM、MXFPプロンプト・単一ユーザーならllama.cpp、ゼロ設定開発ならOllama。NVFP4 tok/s比較付き。

2026-04-30

LiteLLM + Claude Code on DGX Spark — LANサービング設定とプロトコル変換

LiteLLMプロキシでClaude CodeのAPIコールをDGX Spark上のQwen3モデルにルーティング。設定・モデルエイリアスマッピング・レイテンシのトレードオフを解説。

チップ