2026-06-04 — 次瀏覽

NVIDIA 六月 DGX Spark 更新：把桌上型機器變成 4 節點叢集

NVIDIA 6 月 1 日的 DGX Spark 更新（DGX OS 7.5.0、驅動 580.159.03、NCCL 2.30u1）新增 Sync Cluster Assistant，免交換器可串接 3 台 Spark、有交換器則可串接 4 台，組成多節點推論叢集。

NVIDIA 在 6 月 1 日推出今夏第一個官方 DGX Spark 軟體更新，而最重磅的功能改變了這台機器的定位。在此之前，Spark——這台搭載 GB10 Grace-Blackwell、配備 128 GB 統一記憶體的桌上型機器——只是個單節點的原型開發裝置。6 月版本新增了 Sync Cluster Assistant，完全免交換器即可串接最多三台 Spark，有交換器則可串接四台，並搭配一個懂得在多台之間跑環狀拓樸（ring）的 NCCL 更新。這台單機，現在成了一座小型叢集。

6 月 1 日版本帶來什麼

這次更新以 DGX OS 7.5.0 Spark 版本發布，內含驅動 580.159.03、CUDA 13.0.2 與 NCCL 2.30u1。對自架使用者最關鍵的三項改變：

Sync Cluster Assistant，現在直接放在「設定」頁面。它會帶你一步步免交換器串接最多 3 台 DGX Spark，或有交換器時串接 4 台——不必手動接網路。
NCCL 2.30u1 新增3 台 Spark 環狀拓樸支援，這個集合通訊（collective communication）骨幹，正是讓多機張量平行與管線平行真正跑得動的關鍵。
重新設計的開箱體驗（OOBE）：初次設定時不再強制安裝 OTA 更新，因此新 Spark 能更快進入可用狀態，之後再引導使用者前往 playbook 網站。

版本說明還列出了離線（air-gapped）部署與更新流程、透過 cloud-init 客製化企業 ISO、DGX Dashboard 中的「release highlights」面板，以及 Ubuntu HWE 核心堆疊——這類車隊管理（fleet management）基礎設施，訊號很明確：NVIDIA 正把 Spark 當成 IT 部門會「成批部署」的東西，而不只是單一研究者桌上的玩具。

為什麼「叢集化」才是真正的重點

單台 Spark 擁有 128 GB 統一 LPDDR5X，頻寬約 273 GB/s——足以用 4-bit 載入 70B 等級的模型，但再大就會卡在記憶體上。真正有趣的工作負載——完整的 100B 以上 MoE，或拆分式（disaggregated）的 prefill/decode：一台負責提示處理、另一台串流 token——需要不只一台 Spark 透過高速連結對話。社群手動接線做這件事已經好幾個月（EXO 風格的 Spark 加 Mac Studio 組合可追溯到 2025 年底）。6 月 1 日改變的，是這套接線現在是官方原生的：設定頁的助理，加上一個已內建拓樸的 NCCL 版本，取代了論壇貼文加上一句祈禱。

一個值得知道的版本號註腳

NVIDIA 自家文件裡有個真實的歧義。通用版 DGX OS 7 的版本說明把 7.5.0 列為 4 月初的版本，搭配驅動 580.142 與 NCCL 2.29.7；而Spark 專屬的 6 月 1 日說明，卻在同一個 7.5.0 標籤下帶著驅動 580.159.03 與 NCCL 2.30u1。它們並不是同一份位元。如果你要在 Spark 上比對堆疊以求重現性，請引用 Spark 版本說明頁，並鎖定 580.159.03 / NCCL 2.30u1——光是「7.5.0」這個概括版本字串，不夠精確、不足採信。

實務筆記

如果你只跑一台 Spark，OOBE 與離線更新的改變是低調的體驗升級——照你的時程更新，而不是照安裝程式的。如果你一直在考慮第二或第三台，這個版本就是放行燈號：三節點、免交換器的叢集現在是受支援的途徑，而非自己土法煉鋼的科學專案，而 NCCL 2.30u1 正是讓集合運算快到值得一試的關鍵。買第二台前有兩個提醒。NVIDIA 在此版本並未公布多台 Spark 推論的官方 tok/s 數字，所以請從記憶體頻寬的數學去設定期待——每台 273 GB/s，而瓶頸會落在互連（interconnect）而非 GB10 上，尤其在 token 生成階段。另外，盯緊上面提到的驅動版本歧義，確保環中每個節點都跑著一模一樣的位元。

較少被討論的角度

要抵抗的框架是「機器越多就越快」。對單串流的對話工作負載而言，三台 Spark 的環狀拓樸並不會讓你的每秒 token 變三倍——生成受限於記憶體頻寬與環中最慢的那一跳，而且加節點會增加通訊開銷。叢集化真正買到的是容量：那些根本塞不進 128 GB 的模型，現在可以跨 384 GB 載入；而拆分式服務，能讓一個大的 prefill 批次與一個低延遲的 decode 串流，不必再爭搶同一顆晶片。請把 6 月版本讀成 NVIDIA 在回答「我要怎麼跑一個對單台 Spark 太大的模型」，而不是「我要怎麼讓單台 Spark 更快」。這是兩個不同的問題，而 Sync Cluster Assistant 只回答了第一個。