2026-06-04 — 回閲覧

NVIDIA の6月 DGX Spark アップデート：デスクトップ機を4ノードのクラスタに

NVIDIA の6月1日 DGX Spark アップデート（DGX OS 7.5.0、ドライバ 580.159.03、NCCL 2.30u1）は Sync Cluster Assistant を追加。スイッチなしで 3 台、スイッチありで 4 台の Spark をマルチノード推論クラスタに連結できる。

NVIDIA は6月1日、この夏初となる公式の DGX Spark ソフトウェア更新を出荷した。そして目玉機能は、この箱の役割そのものを変える。これまで Spark——128 GB のユニファイドメモリを積んだ GB10 Grace-Blackwell のデスクトップ機——は、単一ノードのプロトタイピング装置だった。6月版は Sync Cluster Assistant を追加し、ネットワークスイッチを一切使わずに最大3台、スイッチありなら4台の Spark を連結できるようにし、さらにそれらをまたいでリング（ring）を走らせる方法を知っている NCCL 更新と組み合わせた。1台の箱が、いまや小さなクラスタになった。

6月1日リリースの中身

このアップデートは DGX OS 7.5.0 Spark ビルドとして出荷され、ドライバ 580.159.03、CUDA 13.0.2、NCCL 2.30u1 を同梱する。セルフホスト勢にとって最も重要な3つの変更：

Sync Cluster Assistant が、設定（Settings）ページに直接現れるようになった。スイッチなしで最大3台の DGX Spark、またはスイッチありで4台の接続を、手動のネットワーク配線なしでガイドしてくれる。
NCCL 2.30u1 は3台 Spark のリングトポロジサポートを追加。この集団通信（collective communication）の基盤こそが、複数機にまたがるテンソル並列・パイプライン並列を実際に動かす鍵だ。
作り直された開封体験（OOBE）：初回セットアップ時に OTA 更新が強制インストールされなくなり、新しい Spark がより速く使える状態で起動する。その後ユーザーは playbook サイトへ案内される。

リリースノートはさらに、エアギャップ（air-gapped）環境での配備・更新フロー、cloud-init による企業向けカスタム ISO、DGX Dashboard の「release highlights」パネル、Ubuntu HWE カーネルスタックも挙げている——こうしたフリート管理（fleet management）の配管は、NVIDIA が Spark を「IT 部門が台数単位で配備するもの」として扱い始めた合図であり、もはや研究者一人の机上のおもちゃではない。

なぜ「クラスタ化」こそ本当の主題なのか

1台の Spark は 128 GB のユニファイド LPDDR5X を、約 273 GB/s の帯域で持つ——4-bit なら 70B 級のモデルをホストできるが、それ以上はメモリ律速になる。本当に面白いワークロード——フルサイズの 100B 超 MoE、あるいは1台がプロンプト処理、もう1台がトークンを流す分離型（disaggregated）prefill/decode——には、高速リンクで会話する複数の Spark が要る。コミュニティはまさにこれを何ヶ月も手配線でやってきた（EXO 風の Spark + Mac Studio 構成は2025年末まで遡る）。6月1日に変わったのは、その配線がいまやファーストパーティになったこと——フォーラムの投稿と祈りではなく、設定ページのアシスタントと、トポロジを組み込んだ NCCL ビルドだ。

知っておくべきバージョン番号の脚注

NVIDIA 自身のドキュメントには本物のねじれがある。汎用の DGX OS 7 リリースノートは 7.5.0 を4月初旬のビルドとして、ドライバ 580.142 と NCCL 2.29.7 で記載する。一方、Spark 専用の6月1日ノートは、同じ 7.5.0 ラベルの下にドライバ 580.159.03 と NCCL 2.30u1 を載せている。両者は同じビットではない。Spark 上で再現性のためにスタックを合わせるなら、Spark のリリースノートページを引用し、580.159.03 / NCCL 2.30u1 に固定すること——包括的な「7.5.0」という文字列だけでは、単体で信用するには精度が足りない。

実務メモ

Spark を1台だけ動かしているなら、OOBE とエアギャップ更新の変更は地味な体験向上だ——インストーラの都合ではなく、自分のスケジュールで更新できる。2台目・3台目を検討してきたなら、このリリースはゴーサインだ：3ノード・スイッチなしのクラスタリングは、自前の理科実験ではなくサポートされた経路になり、NCCL 2.30u1 が集団演算を「やる価値があるほど速く」している。2台目を買う前に2つの注意点。NVIDIA はこのリリースで複数 Spark 推論の公式 tok/s を公表していないので、期待値はメモリ帯域の計算から見積もること——1台あたり 273 GB/s、そしてトークン生成のボトルネックは GB10 ではなくインターコネクトになる。さらに、上記のドライババージョンの食い違いに注意し、リング内のすべてのノードが同一のビットを走らせるようにすること。

あまり語られない視点

抵抗すべきフレーミングは「箱が多いほど速い」だ。単一ストリームのチャット用途では、3台 Spark のリングが毎秒トークンを3倍にはしない——生成はメモリ帯域とリング内で最も遅いホップに律速され、ノードを足せば通信オーバーヘッドが増える。クラスタ化が実際に買うのは容量だ：128 GB に収まらなかったモデルが 384 GB にまたがって収まり、分離型サービングは、大きな prefill バッチと低遅延の decode ストリームが同じチップを奪い合うのをやめさせる。6月リリースは、「1台の Spark には大きすぎるモデルをどう動かすか」への NVIDIA の答えとして読むべきで、「1台の Spark をどう速くするか」ではない。これは別々の問いであり、Sync Cluster Assistant が答えるのは最初の方だけだ。