Skip to content
AI-Daily-Builder

2026-06-07 次浏览 $AMD · AMD / UALink Consortium · UALink / UALink-over-Ethernet scale-up fabric (Instinct MI455X Helios)

UALink 的交换芯片缺口:为何 AMD 首批 Helios 机柜改用以太网出货

AMD 于 6 月 4 日披露的 Helios MI455X 机柜,其 72 颗 GPU 的 scale-up 网域是跑在 UALink-over-Ethernet 而非原生 UALink 交换机上,因为来自 Astera Labs、Auradine、Enfabrica、XConn 与 Upscale AI 的交换 ASIC 仍在验证中。其结果是一场实时测试:在专用网状架构迎头赶上之前,通用以太网对加速器 scale-up 是否已够用。

信号

AMD 围绕 Instinct MI455X 打造的“Helios”机柜级平台于 2026 年 6 月 4 日被详细披露,而有意思的部分并不是 GPU,而是 GPU 之间的那条线。这座机柜把 72 颗 MI455X 加速器缝合成单一 scale-up 网域,具有约 260 TB/s 的整体 scale-up 带宽、31 TB 的 HBM4,以及约 2,900 dense FP4 PFLOPS,由最多 256 核的 EPYC“Venice”CPU 喂入,并通过 Pensando 网卡提供 43 TB/s 的 scale-out 网络。但首批系统并不是以原生方式运行 AMD 的招牌 scale-up 协议。它们跑的是 UALink-over-Ethernet(UALoE),一种把 UALink 语义承载在标准以太网帧之内的传输方式,因为以报道的话来说,原生 UALink 交换芯片正“等待 AMD 客户验证与认证”。

那单一的替换就是当下整个 infra-IP 故事的核心。UALink 是 AMD 与盟友对 Nvidia NVLink 的开放回应:一种内存语义、低延迟的网状架构,设计用来在单一 pod 内连接最多 1,024 颗加速器。规格面已一路狂奔,但让它成真的芯片却还没。

规格领先芯片

UALink 联盟于 2026 年 4 月 7 日批准了第二波规格,发布 200G 1.0 数据链路层与物理层,外加用于 in-network compute(以削减 GPU 间消息流量)的新增内容、一个 chiplet 定义(把 UALink 嵌入 SoC 之中),以及一份 1.0 可管理性规格(gRPC、YANG、SAI、Redfish)。值得注意的是,2.0 通用规格在任何 1.0 芯片出货之前就已落地。联盟主席坦言 1.0 与 2.0 版“不会是 Nvidia 的完整竞争者”,对等水准仅锁定在 3.0 版,预期约一年后才会出现。

硬件时程才是限制所在。依联盟指引,1.0 芯片在 2026 下半年抵达实验室,于 2027 年现身,并在当年稍晚进入产品。实务上的采用取决于一份短名单的商用交换机供应商 —— Astera Labs、Auradine、Enfabrica 与 XConn(在 Marvell 以约 $540M 收购后现已纳入其麾下)—— 以及像 Upscale AI 这类初创,其“SkyHammer”scale-up 网状架构 ASIC(由 2026 年 1 月 21 日宣布的 $200M A 轮所支持)预定于 2026 年底样品出货、2027 年量产。在那些零件取得认证之前,一座 UALink 原生的交换式机柜里根本没有交换机可放。

为何以太网是权宜之计

这就是以太网登场之处。以以太网承载 scale-up 流量的理由很单纯:它已经存在、大量出货,而且在 scale-up 与 scale-out 之间共用同一套用于监控、遥测与调试的运维工具链。Broadcom 以其 Tomahawk Ultra 的定位积极推动这条路线 —— 一款 51.2 Tb/s 的交换机,宣称约 250 ns 延迟并支持通过“scale-up Ethernet”连接 1,024 颗以上的加速器 —— 并主张你不该去等“某个还在开发中、也许过个几年你才会有芯片的规格”。

反方论点同样具体。以太网被设计为通用网络,而非加速器内存网状架构,因此相较于专为此打造的交换式 UALink 网状架构,UALoE 可能带来更高延迟、更多协议额外负担,以及较不确定的行为。对于训练与大上下文推理而言,当集合通信(collective operations)对尾端延迟敏感时,“较不确定”并不是个脚注 —— 而是被搁在地上的吞吐量。实际上,AMD 首批 Helios 系统就是一场真实世界的 A/B 测试:现在先以以太网出货,等原生 UALink 交换机取得认证后再换上,并让客户量测其间的差距。

项目细节
平台AMD“Helios”机柜,72x Instinct MI455X
Scale-up 传输(初期)UALink-over-Ethernet(UALoE)
整体 scale-up 带宽约 260 TB/s
每柜 HBM431 TB
Dense FP4约 2,900 PFLOPS
原生 UALink 交换机预计时程实验室 H2 2026,产品 2027
商用交换机供应商Astera Labs、Auradine、Enfabrica、XConn(Marvell)、Upscale AI

从业者笔记

如果你正在估算 2026-2027 年的加速器建置规模,请把“UALink-capable”与“UALink-switched”当成两个不同的采购决策。一个平台可以在加速器端点上具备 UALink 能力,但其首批出货的网状架构却是以以太网为基础;原生交换式配置可能是一个受制于第三方芯片认证、稍后才推出的 SKU。请向供应商问三个问题:原生配置仰赖哪款交换机 ASIC 与哪个 stepping、认证时程窗口,以及集合延迟(collective-latency)的基准测试究竟是在 UALoE 上跑、还是在原生 UALink 交换机上跑 —— 因为招牌的整体带宽数字并不会告诉你那个主宰真实训练与推理性能的尾端延迟故事。

被低估的角度

市场一直把这件事框定为 UALink 对以太网,但更持久的结果或许是 UALink-over-Ethernet 成为一个永久层级,而非过渡安排。倘若在 51.2T 级交换机上的 UALoE 在延迟上“够接近”,足以涵盖推理与中规模训练中相当可观的一部分,那么在 scale-up 与 scale-out 两端重复使用同一套交换技术、同一条光学供应链与同一套运维堆栈的经济引力,将极难克服。在那样的世界里,原生 UALink 交换机芯片与其说是落败,不如说是被推往决定论不可妥协的最高端训练 pod —— 那是一个远比商用交换机初创目前所募资对标的更小的 TAM。对于这些互连 IP 名号而言,风险不在于 UALink 失败;而在于“够好的以太网”悄悄为专用网状架构最终所能触及的 scale-up 插槽比例设下了上限。


来源

请喝咖啡