2026-06-04 — 回閲覧
NVIDIA の6月 DGX Spark アップデート:デスクトップ機を4ノードのクラスタに
NVIDIA の6月1日 DGX Spark アップデート(DGX OS 7.5.0、ドライバ 580.159.03、NCCL 2.30u1)は Sync Cluster Assistant を追加。スイッチなしで 3 台、スイッチありで 4 台の Spark をマルチノード推論クラスタに連結できる。
NVIDIA は6月1日、この夏初となる公式の DGX Spark ソフトウェア更新を出荷した。そして目玉機能は、この箱の役割そのものを変える。これまで Spark——128 GB のユニファイドメモリを積んだ GB10 Grace-Blackwell のデスクトップ機——は、単一ノードのプロトタイピング装置だった。6月版は Sync Cluster Assistant を追加し、ネットワークスイッチを一切使わずに最大3台、スイッチありなら4台の Spark を連結できるようにし、さらにそれらをまたいでリング(ring)を走らせる方法を知っている NCCL 更新と組み合わせた。1台の箱が、いまや小さなクラスタになった。
6月1日リリースの中身
このアップデートは DGX OS 7.5.0 Spark ビルドとして出荷され、ドライバ 580.159.03、CUDA 13.0.2、NCCL 2.30u1 を同梱する。セルフホスト勢にとって最も重要な3つの変更:
- Sync Cluster Assistant が、設定(Settings)ページに直接現れるようになった。スイッチなしで最大3台の DGX Spark、またはスイッチありで4台の接続を、手動のネットワーク配線なしでガイドしてくれる。
- NCCL 2.30u1 は3台 Spark のリングトポロジサポートを追加。この集団通信(collective communication)の基盤こそが、複数機にまたがるテンソル並列・パイプライン並列を実際に動かす鍵だ。
- 作り直された開封体験(OOBE):初回セットアップ時に OTA 更新が強制インストールされなくなり、新しい Spark がより速く使える状態で起動する。その後ユーザーは playbook サイトへ案内される。
リリースノートはさらに、エアギャップ(air-gapped)環境での配備・更新フロー、cloud-init による企業向けカスタム ISO、DGX Dashboard の「release highlights」パネル、Ubuntu HWE カーネルスタックも挙げている——こうしたフリート管理(fleet management)の配管は、NVIDIA が Spark を「IT 部門が台数単位で配備するもの」として扱い始めた合図であり、もはや研究者一人の机上のおもちゃではない。
なぜ「クラスタ化」こそ本当の主題なのか
1台の Spark は 128 GB のユニファイド LPDDR5X を、約 273 GB/s の帯域で持つ——4-bit なら 70B 級のモデルをホストできるが、それ以上はメモリ律速になる。本当に面白いワークロード——フルサイズの 100B 超 MoE、あるいは1台がプロンプト処理、もう1台がトークンを流す分離型(disaggregated)prefill/decode——には、高速リンクで会話する複数の Spark が要る。コミュニティはまさにこれを何ヶ月も手配線でやってきた(EXO 風の Spark + Mac Studio 構成は2025年末まで遡る)。6月1日に変わったのは、その配線がいまやファーストパーティになったこと——フォーラムの投稿と祈りではなく、設定ページのアシスタントと、トポロジを組み込んだ NCCL ビルドだ。
知っておくべきバージョン番号の脚注
NVIDIA 自身のドキュメントには本物のねじれがある。汎用の DGX OS 7 リリースノートは 7.5.0 を4月初旬のビルドとして、ドライバ 580.142 と NCCL 2.29.7 で記載する。一方、Spark 専用の6月1日ノートは、同じ 7.5.0 ラベルの下にドライバ 580.159.03 と NCCL 2.30u1 を載せている。両者は同じビットではない。Spark 上で再現性のためにスタックを合わせるなら、Spark のリリースノートページを引用し、580.159.03 / NCCL 2.30u1 に固定すること——包括的な「7.5.0」という文字列だけでは、単体で信用するには精度が足りない。
実務メモ
Spark を1台だけ動かしているなら、OOBE とエアギャップ更新の変更は地味な体験向上だ——インストーラの都合ではなく、自分のスケジュールで更新できる。2台目・3台目を検討してきたなら、このリリースはゴーサインだ:3ノード・スイッチなしのクラスタリングは、自前の理科実験ではなくサポートされた経路になり、NCCL 2.30u1 が集団演算を「やる価値があるほど速く」している。2台目を買う前に2つの注意点。NVIDIA はこのリリースで複数 Spark 推論の公式 tok/s を公表していないので、期待値はメモリ帯域の計算から見積もること——1台あたり 273 GB/s、そしてトークン生成のボトルネックは GB10 ではなくインターコネクトになる。さらに、上記のドライババージョンの食い違いに注意し、リング内のすべてのノードが同一のビットを走らせるようにすること。
あまり語られない視点
抵抗すべきフレーミングは「箱が多いほど速い」だ。単一ストリームのチャット用途では、3台 Spark のリングが毎秒トークンを3倍にはしない——生成はメモリ帯域とリング内で最も遅いホップに律速され、ノードを足せば通信オーバーヘッドが増える。クラスタ化が実際に買うのは容量だ:128 GB に収まらなかったモデルが 384 GB にまたがって収まり、分離型サービングは、大きな prefill バッチと低遅延の decode ストリームが同じチップを奪い合うのをやめさせる。6月リリースは、「1台の Spark には大きすぎるモデルをどう動かすか」への NVIDIA の答えとして読むべきで、「1台の Spark をどう速くするか」ではない。これは別々の問いであり、Sync Cluster Assistant が答えるのは最初の方だけだ。