2026-06-04 — 次瀏覽
NVIDIA 六月 DGX Spark 更新:把桌上型機器變成 4 節點叢集
NVIDIA 6 月 1 日的 DGX Spark 更新(DGX OS 7.5.0、驅動 580.159.03、NCCL 2.30u1)新增 Sync Cluster Assistant,免交換器可串接 3 台 Spark、有交換器則可串接 4 台,組成多節點推論叢集。
NVIDIA 在 6 月 1 日推出今夏第一個官方 DGX Spark 軟體更新,而最重磅的功能改變了這台機器的定位。在此之前,Spark——這台搭載 GB10 Grace-Blackwell、配備 128 GB 統一記憶體的桌上型機器——只是個單節點的原型開發裝置。6 月版本新增了 Sync Cluster Assistant,完全免交換器即可串接最多三台 Spark,有交換器則可串接四台,並搭配一個懂得在多台之間跑環狀拓樸(ring)的 NCCL 更新。這台單機,現在成了一座小型叢集。
6 月 1 日版本帶來什麼
這次更新以 DGX OS 7.5.0 Spark 版本發布,內含驅動 580.159.03、CUDA 13.0.2 與 NCCL 2.30u1。對自架使用者最關鍵的三項改變:
- Sync Cluster Assistant,現在直接放在「設定」頁面。它會帶你一步步免交換器串接最多 3 台 DGX Spark,或有交換器時串接 4 台——不必手動接網路。
- NCCL 2.30u1 新增3 台 Spark 環狀拓樸支援,這個集合通訊(collective communication)骨幹,正是讓多機張量平行與管線平行真正跑得動的關鍵。
- 重新設計的開箱體驗(OOBE):初次設定時不再強制安裝 OTA 更新,因此新 Spark 能更快進入可用狀態,之後再引導使用者前往 playbook 網站。
版本說明還列出了離線(air-gapped)部署與更新流程、透過 cloud-init 客製化企業 ISO、DGX Dashboard 中的「release highlights」面板,以及 Ubuntu HWE 核心堆疊——這類車隊管理(fleet management)基礎設施,訊號很明確:NVIDIA 正把 Spark 當成 IT 部門會「成批部署」的東西,而不只是單一研究者桌上的玩具。
為什麼「叢集化」才是真正的重點
單台 Spark 擁有 128 GB 統一 LPDDR5X,頻寬約 273 GB/s——足以用 4-bit 載入 70B 等級的模型,但再大就會卡在記憶體上。真正有趣的工作負載——完整的 100B 以上 MoE,或拆分式(disaggregated)的 prefill/decode:一台負責提示處理、另一台串流 token——需要不只一台 Spark 透過高速連結對話。社群手動接線做這件事已經好幾個月(EXO 風格的 Spark 加 Mac Studio 組合可追溯到 2025 年底)。6 月 1 日改變的,是這套接線現在是官方原生的:設定頁的助理,加上一個已內建拓樸的 NCCL 版本,取代了論壇貼文加上一句祈禱。
一個值得知道的版本號註腳
NVIDIA 自家文件裡有個真實的歧義。通用版 DGX OS 7 的版本說明把 7.5.0 列為 4 月初的版本,搭配驅動 580.142 與 NCCL 2.29.7;而Spark 專屬的 6 月 1 日說明,卻在同一個 7.5.0 標籤下帶著驅動 580.159.03 與 NCCL 2.30u1。它們並不是同一份位元。如果你要在 Spark 上比對堆疊以求重現性,請引用 Spark 版本說明頁,並鎖定 580.159.03 / NCCL 2.30u1——光是「7.5.0」這個概括版本字串,不夠精確、不足採信。
實務筆記
如果你只跑一台 Spark,OOBE 與離線更新的改變是低調的體驗升級——照你的時程更新,而不是照安裝程式的。如果你一直在考慮第二或第三台,這個版本就是放行燈號:三節點、免交換器的叢集現在是受支援的途徑,而非自己土法煉鋼的科學專案,而 NCCL 2.30u1 正是讓集合運算快到值得一試的關鍵。買第二台前有兩個提醒。NVIDIA 在此版本並未公布多台 Spark 推論的官方 tok/s 數字,所以請從記憶體頻寬的數學去設定期待——每台 273 GB/s,而瓶頸會落在互連(interconnect)而非 GB10 上,尤其在 token 生成階段。另外,盯緊上面提到的驅動版本歧義,確保環中每個節點都跑著一模一樣的位元。
較少被討論的角度
要抵抗的框架是「機器越多就越快」。對單串流的對話工作負載而言,三台 Spark 的環狀拓樸並不會讓你的每秒 token 變三倍——生成受限於記憶體頻寬與環中最慢的那一跳,而且加節點會增加通訊開銷。叢集化真正買到的是容量:那些根本塞不進 128 GB 的模型,現在可以跨 384 GB 載入;而拆分式服務,能讓一個大的 prefill 批次與一個低延遲的 decode 串流,不必再爭搶同一顆晶片。請把 6 月版本讀成 NVIDIA 在回答「我要怎麼跑一個對單台 Spark 太大的模型」,而不是「我要怎麼讓單台 Spark 更快」。這是兩個不同的問題,而 Sync Cluster Assistant 只回答了第一個。