2026-05-03
DGX Spark デプロイメモ:コミュニティが 2026 Q2 に実際に踏んだ問題
NVIDIA Developer Forums で繰り返し現れる DGX Spark / GB10 のデプロイ落とし穴 6 つ(多くはハードウェアではなくソフトウェア起因)と、MoE + NVFP4 / MXFP4 についてのコミュニティ合意。
NVIDIA DGX Spark / GB10 をローカル LLM サービス向けにセットアップしているなら、NVIDIA Developer Forums の「DGX Spark / GB10」カテゴリは最もシグナルの強い読み始めの場所です。以下は 2026 年初頭にコミュニティが記録した内容を、開発者向けに整理したものです。
繰り返し現れる 6 つの故障モード(まずソフトウェアを疑い、ハードウェアは後で)
1. GPU が ~5W / 0% 使用率で固着
ドライバーと CUDA の不一致です。2026-01 時点で既知の良好な組み合わせは Driver 580.95.05 + CUDA 13.0。古い 550.54.15 + CUDA 12.4 は Spark 上で壊れています。GPU が死んだと判断する前に、両方を更新してください。
2. 80–86°C の「サーマルスロットリング」
たいていは誤警報で、Spark の仕様範囲内です。実際の原因は、ファイルシステムキャッシュが unified memory を埋めて、古い CUDA ツールが古い状態を報告して混乱しているケースが多いです。
sudo sync && echo 3 | sudo tee /proc/sys/vm/drop_caches
3. Dense 70B FP8 が 2–3 tok/s で頭打ち
設定バグではなく、このサイズの dense モデルにおける 273 GB/s LPDDR5X メモリ帯域幅の天井 です。コミュニティ合意は、トークンあたりの活性化パラメータが少ない MoE モデルに切り替えること(gpt-oss-120b は ~5B 活性化、Qwen3-MoE、GLM など)、または draft モデル付きの speculative decoding を使うことです。
4. マルチノード NCCL の静かな低速化
ConnectX-7 NCCL は、pod に privileged 権限がないか VF NetworkAttachmentDefinition が欠けていると、エラーなしに TCP socket にフォールバックします。差は大きく、RoCE が本当に立ち上がれば 2.12 → 9.78 GB/s(4.6 倍) です。モデルコードがボトルネックだと疑う前に、トランスポートを検証してください。
5. unified memory が 126.5 GB に近づくとシステムがクラッシュ
128 GB 全部が安全領域だと仮定してはいけません。llama-swap オーケストレーションでは物理上限より下に適応的なメモリキャップが必要です。
6. ASUS Ascent GX10 が 30W「Safety Mode」で固着
これは本物のハードウェアで、USB-PD ファームウェアの協議失敗です。ASUS ブランドのバリアントに影響し、コミュニティが症状を文書化済みです。
クイックトリアージツール
コミュニティ製の spark-doctor CLI は上記 6 項目を一括チェックします。フォーラムスレッドを開く前に一度回しておくと、「〜は確認しましたか?」のやりとりを節約できます。
ローカル LLM パフォーマンスの定量的合意
2026 Q1〜Q2 のコミュニティ合意は、Spark 上で MoE モデル + NVFP4 / MXFP4 量子化で動かすこと。gpt-oss-120b と Qwen3.5-35B-A3B がもっとも頻繁に挙げられる選択肢です。ネイティブ NVFP4 は llama.cpp の build b8967(2026-04-29) で着地しました。
実装ノート(私見)
2026 Q2 にゼロから Spark を立ち上げる人への 3 つの takeaway。
- 最初から Driver 580.95.05 + CUDA 13.0 にロック。 フォーラムスレッドのパフォーマンス不満の多くは、古いドライバーが残っていたことに起因しています。
- スループットを気にするなら dense 70B+ は回さない。 active-parameter の小さい MoE を選べば、同じメモリで tok/s は 5〜10 倍になります。
- マルチノードに行くなら、RoCE が本当に立ち上がっていることを検証する。 TCP への静かなフォールバックは、スレッド中で最も高くつく footgun です。
ハードウェア自体は速い。2026 Q1〜Q2 の不満の多くは、ソフトウェアの状態と設定に起因しています。
Sources
- NVIDIA Forums — GPU stuck at 5W (driver/CUDA mismatch) ↗
- NVIDIA Forums — Thermal throttling false alarms ↗
- NVIDIA Forums — Dense 70B 2-3 tok/s memory bandwidth ceiling ↗
- NVIDIA Forums — Multi-node NCCL silently slow without RoCE ↗
- NVIDIA Forums — System crashes near 126.5 GB unified memory ↗
- NVIDIA Forums — ASUS Ascent GX10 stuck in 30W Safety Mode ↗
- NVIDIA Forums — Community spark-doctor triage CLI ↗