2026-06-04 — 次浏览

NVIDIA 六月 DGX Spark 更新：把桌面机器变成 4 节点集群

NVIDIA 6 月 1 日的 DGX Spark 更新（DGX OS 7.5.0、驱动 580.159.03、NCCL 2.30u1）新增 Sync Cluster Assistant，免交换机可串接 3 台 Spark、有交换机则可串接 4 台，组成多节点推理集群。

NVIDIA 在 6 月 1 日推出今夏第一个官方 DGX Spark 软件更新，而最重磅的功能改变了这台机器的定位。在此之前，Spark——这台搭载 GB10 Grace-Blackwell、配备 128 GB 统一内存的桌面机器——只是个单节点的原型开发设备。6 月版本新增了 Sync Cluster Assistant，完全免交换机即可串接最多三台 Spark，有交换机则可串接四台，并搭配一个懂得在多台之间跑环状拓扑（ring）的 NCCL 更新。这台单机，如今成了一座小型集群。

6 月 1 日版本带来什么

这次更新以 DGX OS 7.5.0 Spark 版本发布，内含驱动 580.159.03、CUDA 13.0.2 与 NCCL 2.30u1。对自托管用户最关键的三项改变：

Sync Cluster Assistant，现在直接放在“设置”页面。它会带你一步步免交换机串接最多 3 台 DGX Spark，或有交换机时串接 4 台——无需手动接网络。
NCCL 2.30u1 新增3 台 Spark 环状拓扑支持，这个集合通信（collective communication）骨干，正是让多机张量并行与流水线并行真正跑得动的关键。
重新设计的开箱体验（OOBE）：初次设置时不再强制安装 OTA 更新，因此新 Spark 能更快进入可用状态，之后再引导用户前往 playbook 网站。

版本说明还列出了离线（air-gapped）部署与更新流程、通过 cloud-init 定制企业 ISO、DGX Dashboard 中的“release highlights”面板，以及 Ubuntu HWE 内核堆栈——这类车队管理（fleet management）基础设施，信号很明确：NVIDIA 正把 Spark 当成 IT 部门会“成批部署”的东西，而不只是单一研究者桌上的玩具。

为什么“集群化”才是真正的重点

单台 Spark 拥有 128 GB 统一 LPDDR5X，带宽约 273 GB/s——足以用 4-bit 加载 70B 等级的模型，但再大就会卡在内存上。真正有趣的工作负载——完整的 100B 以上 MoE，或拆分式（disaggregated）的 prefill/decode：一台负责提示处理、另一台流式输出 token——需要不止一台 Spark 通过高速连接对话。社区手动接线做这件事已经好几个月（EXO 风格的 Spark 加 Mac Studio 组合可追溯到 2025 年底）。6 月 1 日改变的，是这套接线现在是官方原生的：设置页的助手，加上一个已内建拓扑的 NCCL 版本，取代了论坛帖子加上一句祈祷。

一个值得知道的版本号脚注

NVIDIA 自家文档里有个真实的歧义。通用版 DGX OS 7 的版本说明把 7.5.0 列为 4 月初的版本，搭配驱动 580.142 与 NCCL 2.29.7；而Spark 专属的 6 月 1 日说明，却在同一个 7.5.0 标签下带着驱动 580.159.03 与 NCCL 2.30u1。它们并不是同一份位。如果你要在 Spark 上比对堆栈以求可复现性，请引用 Spark 版本说明页，并锁定 580.159.03 / NCCL 2.30u1——光是“7.5.0”这个概括版本字符串，不够精确、不足采信。

实务笔记

如果你只跑一台 Spark，OOBE 与离线更新的改变是低调的体验升级——按你的时间表更新，而不是按安装程序的。如果你一直在考虑第二或第三台，这个版本就是放行灯号：三节点、免交换机的集群现在是受支持的途径，而非自己土法炼钢的科学项目，而 NCCL 2.30u1 正是让集合运算快到值得一试的关键。买第二台前有两个提醒。NVIDIA 在此版本并未公布多台 Spark 推理的官方 tok/s 数字，所以请从内存带宽的数学去设定期待——每台 273 GB/s，而瓶颈会落在互连（interconnect）而非 GB10 上，尤其在 token 生成阶段。另外，盯紧上面提到的驱动版本歧义，确保环中每个节点都跑着一模一样的位。

较少被讨论的角度

要抵抗的框架是“机器越多就越快”。对单流的对话工作负载而言，三台 Spark 的环状拓扑并不会让你的每秒 token 变三倍——生成受限于内存带宽与环中最慢的那一跳，而且加节点会增加通信开销。集群化真正买到的是容量：那些根本塞不进 128 GB 的模型，现在可以跨 384 GB 加载；而拆分式服务，能让一个大的 prefill 批次与一个低延迟的 decode 流，不必再争抢同一颗芯片。请把 6 月版本读成 NVIDIA 在回答“我要怎么跑一个对单台 Spark 太大的模型”，而不是“我要怎么让单台 Spark 更快”。这是两个不同的问题，而 Sync Cluster Assistant 只回答了第一个。