Skip to content
AI-Daily-Builder

2026-06-07 조회 $AMD · AMD / UALink Consortium · UALink / UALink-over-Ethernet scale-up fabric (Instinct MI455X Helios)

UALink의 스위치 실리콘 격차: 왜 AMD의 첫 Helios 랙은 이더넷으로 출하되는가

6월 4일에 상세히 공개된 AMD의 Helios MI455X 랙은 72-GPU scale-up 도메인을 네이티브 UALink 스위치가 아니라 UALink-over-Ethernet 위에서 구동한다. Astera Labs, Auradine, Enfabrica, XConn, Upscale AI의 스위치 ASIC이 아직 검증 중이기 때문이다. 그 결과는 전용 패브릭이 따라잡는 동안 범용 이더넷이 가속기 scale-up에 충분한지를 묻는 실시간 테스트가 되었다.

시그널

Instinct MI455X를 중심으로 구축된 AMD의 “Helios” 랙 스케일 플랫폼의 세부 내용이 2026년 6월 4일에 드러났는데, 흥미로운 부분은 GPU가 아니다. GPU들 사이의 배선이다. 이 랙은 72개의 MI455X 가속기를 하나의 scale-up 도메인으로 꿰매어, 약 260 TB/s의 총 scale-up 대역폭, 31 TB의 HBM4, 그리고 약 2,900 dense FP4 PFLOPS를 갖추며, 최대 256코어 EPYC “Venice” CPU와 Pensando NIC을 통한 43 TB/s의 scale-out 네트워킹으로 공급된다. 그러나 첫 시스템들은 AMD의 간판 scale-up 프로토콜을 네이티브로 구동하지 않는다. 그것들이 구동하는 것은 UALink-over-Ethernet(UALoE), 즉 UALink 시맨틱을 표준 이더넷 프레임 안에 실어 나르는 전송 방식이다. 보도의 표현을 빌리면, 네이티브 UALink 스위치 칩이 AMD 고객들에 의해 “검증 및 인증 대기” 중이기 때문이다.

그 단 하나의 대체가 지금 당장 infra-IP 이야기의 전부다. UALink는 AMD와 그 동맹들이 내놓은 Nvidia NVLink에 대한 개방형 답변이다. 메모리 시맨틱의 저지연 패브릭으로, 하나의 pod 안에서 최대 1,024개의 가속기를 연결하도록 의도되었다. 사양 쪽은 앞서 내달려 왔다. 그것을 현실로 만드는 실리콘은 그렇지 못했다.

사양이 실리콘을 앞서다

UALink 컨소시엄은 2026년 4월 7일에 두 번째 물결의 사양을 비준하여, 200G 1.0 데이터 링크 계층 및 물리 계층과 더불어 in-network compute(GPU 간 메시지 트래픽을 줄이기 위한)의 추가 사항, 칩렛 정의(UALink을 SoC 안에 내장하기 위한), 그리고 1.0 관리성 사양(gRPC, YANG, SAI, Redfish)을 공개했다. 주목할 점은, 어떤 1.0 실리콘도 출하되기 전에 2.0 공통 사양이 먼저 등장했다는 것이다. 컨소시엄 의장은 1.0과 2.0 버전이 “Nvidia의 완전한 경쟁자는 되지 못할 것”이라고 솔직히 밝혔으며, 대등함은 버전 3.0에서만 겨냥되고 그것은 대략 1년 뒤로 예상된다고 했다.

하드웨어 일정이 곧 제약이다. 컨소시엄의 지침에 따르면, 1.0 실리콘은 2026년 하반기에 연구소에 도달하고, 2027년에 모습을 드러내며, 그해 말에 제품에 안착한다. 실질적인 채택은 짧은 명단의 머천트 스위치 공급업체 —— Astera Labs, Auradine, Enfabrica, 그리고 XConn(약 $540M의 인수를 거쳐 현재 Marvell 산하에 들어감) —— 과 Upscale AI 같은 스타트업에 달려 있다. 이 회사의 “SkyHammer” scale-up 패브릭 ASIC(2026년 1월 21일 발표된 $200M 시리즈 A의 뒷받침을 받음)은 2026년 말 샘플 출하와 2027년 양산이 예정되어 있다. 그 부품들이 인증되기 전까지, UALink 네이티브 스위치 랙에는 안에 넣을 스위치가 없다.

왜 이더넷이 임시방편인가

바로 여기서 이더넷이 등장한다. scale-up 트래픽을 이더넷으로 실어 나르는 근거는 단순하다. 그것은 이미 존재하고, 대량으로 출하되며, scale-up과 scale-out에 걸쳐 모니터링, 텔레메트리, 디버그를 위한 단일 운영 툴체인을 공유한다는 것이다. Broadcom은 그 Tomahawk Ultra 포지셔닝으로 이 노선을 공격적으로 밀어붙여 왔다 —— 51.2 Tb/s 스위치로 약 250 ns 지연과 “scale-up Ethernet” 위에서 1,024개 이상의 가속기 지원을 표방한다 —— 그리고 “아직 개발 중이고 어쩌면 몇 년 뒤에야 칩을 손에 넣을지도 모를 어떤 사양”을 기다려서는 안 된다고 주장해 왔다.

반론도 똑같이 구체적이다. 이더넷은 가속기 메모리 패브릭이 아니라 범용 네트워킹으로 설계되었으므로, 목적에 맞게 만들어진 스위치식 UALink 패브릭에 비해 UALoE는 더 높은 지연, 더 많은 프로토콜 오버헤드, 그리고 덜 결정론적인 거동을 실어 나를 수 있다. 집합 연산(collective operations)이 테일 레이턴시에 민감한 학습과 대형 컨텍스트 추론에 있어, “덜 결정론적”이라는 것은 각주가 아니다 —— 그것은 바닥에 남겨진 처리량이다. 사실상 AMD의 첫 Helios 시스템은 실제 세계의 A/B 테스트다. 지금은 이더넷으로 출하하고, 네이티브 UALink 스위치가 인증되면 교체하며, 고객이 그 차이를 측정하게 하는 것이다.

항목세부 내용
플랫폼AMD “Helios” 랙, 72x Instinct MI455X
Scale-up 전송(초기)UALink-over-Ethernet(UALoE)
총 scale-up 대역폭약 260 TB/s
랙당 HBM431 TB
Dense FP4약 2,900 PFLOPS
네이티브 UALink 스위치 예상 시기연구소 H2 2026, 제품 2027
머천트 스위치 공급업체Astera Labs, Auradine, Enfabrica, XConn(Marvell), Upscale AI

실무자 노트

2026-2027년 가속기 구축 규모를 산정하고 있다면, “UALink-capable”과 “UALink-switched”를 두 개의 서로 다른 구매 결정으로 다루라. 플랫폼은 가속기 엔드포인트에서 UALink 대응일 수 있는 한편, 그 첫 출하 패브릭은 이더넷 기반일 수 있다. 네이티브 스위치식 구성은 제3자 실리콘 인증에 게이트된, 더 나중의 SKU일 수 있다. 공급업체에 세 가지 질문을 하라. 네이티브 구성이 어떤 스위치 ASIC과 어떤 stepping에 의존하는지, 인증 윈도우, 그리고 집합 지연(collective-latency) 벤치마크가 UALoE에서 수행되었는지 아니면 네이티브 UALink 스위치에서 수행되었는지 —— 왜냐하면 간판이 되는 총 대역폭 수치는 실제 학습과 추론 성능을 지배하는 테일 레이턴시 이야기를 알려주지 않기 때문이다.

충분히 고려되지 않은 관점

시장은 이것을 UALink 대 이더넷으로 계속 틀 짓지만, 더 오래 가는 결말은 UALink-over-Ethernet이 임시 자리가 아니라 영구적인 계층이 되는 것일 수 있다. 만약 51.2T급 스위치 위의 UALoE가 추론과 중간 규모 학습의 상당한 몫에 대해 지연 면에서 “충분히 가깝게” 안착한다면, scale-up과 scale-out 양쪽에 걸쳐 단일 스위칭 기술, 단일 광학 공급망, 단일 운영 스택을 재사용하는 것의 경제적 중력은 극복하기 어렵다. 그런 세계에서 네이티브 UALink 스위치 실리콘은 패배한다기보다, 결정론이 타협 불가능한 최고급 학습 pod로 밀려난다 —— 머천트 스위치 스타트업들이 현재 그것을 겨냥해 자금을 조달하고 있는 규모보다 훨씬 작은 TAM이다. 이들 interconnect-IP 종목에게 위험은 UALink가 실패하는 것이 아니다. 그것은 “충분히 좋은 이더넷”이 전용 패브릭이 결국 손댈 수 있는 scale-up 소켓의 비율을 조용히 상한선으로 묶어버리는 것이다.


출처

커피