Skip to content
AI-Daily-Builder

2026-06-04 次浏览

NVIDIA 六月 DGX Spark 更新:把桌面机器变成 4 节点集群

NVIDIA 6 月 1 日的 DGX Spark 更新(DGX OS 7.5.0、驱动 580.159.03、NCCL 2.30u1)新增 Sync Cluster Assistant,免交换机可串接 3 台 Spark、有交换机则可串接 4 台,组成多节点推理集群。

NVIDIA 在 6 月 1 日推出今夏第一个官方 DGX Spark 软件更新,而最重磅的功能改变了这台机器的定位。在此之前,Spark——这台搭载 GB10 Grace-Blackwell、配备 128 GB 统一内存的桌面机器——只是个单节点的原型开发设备。6 月版本新增了 Sync Cluster Assistant,完全免交换机即可串接最多三台 Spark,有交换机则可串接四台,并搭配一个懂得在多台之间跑环状拓扑(ring)的 NCCL 更新。这台单机,如今成了一座小型集群。

6 月 1 日版本带来什么

这次更新以 DGX OS 7.5.0 Spark 版本发布,内含驱动 580.159.03、CUDA 13.0.2 与 NCCL 2.30u1。对自托管用户最关键的三项改变:

版本说明还列出了离线(air-gapped)部署与更新流程、通过 cloud-init 定制企业 ISO、DGX Dashboard 中的“release highlights”面板,以及 Ubuntu HWE 内核堆栈——这类车队管理(fleet management)基础设施,信号很明确:NVIDIA 正把 Spark 当成 IT 部门会“成批部署”的东西,而不只是单一研究者桌上的玩具。

为什么“集群化”才是真正的重点

单台 Spark 拥有 128 GB 统一 LPDDR5X,带宽约 273 GB/s——足以用 4-bit 加载 70B 等级的模型,但再大就会卡在内存上。真正有趣的工作负载——完整的 100B 以上 MoE,或拆分式(disaggregated)的 prefill/decode:一台负责提示处理、另一台流式输出 token——需要不止一台 Spark 通过高速连接对话。社区手动接线做这件事已经好几个月(EXO 风格的 Spark 加 Mac Studio 组合可追溯到 2025 年底)。6 月 1 日改变的,是这套接线现在是官方原生的:设置页的助手,加上一个已内建拓扑的 NCCL 版本,取代了论坛帖子加上一句祈祷。

一个值得知道的版本号脚注

NVIDIA 自家文档里有个真实的歧义。通用版 DGX OS 7 的版本说明把 7.5.0 列为 4 月初的版本,搭配驱动 580.142 与 NCCL 2.29.7;而Spark 专属的 6 月 1 日说明,却在同一个 7.5.0 标签下带着驱动 580.159.03 与 NCCL 2.30u1。它们并不是同一份位。如果你要在 Spark 上比对堆栈以求可复现性,请引用 Spark 版本说明页,并锁定 580.159.03 / NCCL 2.30u1——光是“7.5.0”这个概括版本字符串,不够精确、不足采信。

实务笔记

如果你只跑一台 Spark,OOBE 与离线更新的改变是低调的体验升级——按你的时间表更新,而不是按安装程序的。如果你一直在考虑第二或第三台,这个版本就是放行灯号:三节点、免交换机的集群现在是受支持的途径,而非自己土法炼钢的科学项目,而 NCCL 2.30u1 正是让集合运算快到值得一试的关键。买第二台前有两个提醒。NVIDIA 在此版本并未公布多台 Spark 推理的官方 tok/s 数字,所以请从内存带宽的数学去设定期待——每台 273 GB/s,而瓶颈会落在互连(interconnect)而非 GB10 上,尤其在 token 生成阶段。另外,盯紧上面提到的驱动版本歧义,确保环中每个节点都跑着一模一样的位。

较少被讨论的角度

要抵抗的框架是“机器越多就越快”。对单流的对话工作负载而言,三台 Spark 的环状拓扑并不会让你的每秒 token 变三倍——生成受限于内存带宽与环中最慢的那一跳,而且加节点会增加通信开销。集群化真正买到的是容量:那些根本塞不进 128 GB 的模型,现在可以跨 384 GB 加载;而拆分式服务,能让一个大的 prefill 批次与一个低延迟的 decode 流,不必再争抢同一颗芯片。请把 6 月版本读成 NVIDIA 在回答“我要怎么跑一个对单台 Spark 太大的模型”,而不是“我要怎么让单台 Spark 更快”。这是两个不同的问题,而 Sync Cluster Assistant 只回答了第一个。


Sources

请喝咖啡