2026-06-04 — 회 조회

NVIDIA의 6월 DGX Spark 업데이트: 데스크톱 박스를 4노드 클러스터로

NVIDIA의 6월 1일 DGX Spark 업데이트(DGX OS 7.5.0, 드라이버 580.159.03, NCCL 2.30u1)는 Sync Cluster Assistant를 추가해, 스위치 없이 3대, 스위치로 4대의 Spark를 멀티노드 추론 클러스터로 연결한다.

NVIDIA는 6월 1일 올여름 첫 공식 DGX Spark 소프트웨어 업데이트를 출시했고, 핵심 기능은 이 박스의 용도 자체를 바꾼다. 지금까지 Spark——128 GB 통합 메모리를 얹은 GB10 Grace-Blackwell 데스크톱——는 단일 노드 프로토타이핑 장치였다. 6월 릴리스는 Sync Cluster Assistant를 추가해, 네트워크 스위치 없이 최대 3대, 스위치가 있으면 4대의 Spark를 연결할 수 있게 했고, 이들을 가로질러 링(ring)을 돌리는 법을 아는 NCCL 업데이트와 짝지었다. 한 대였던 박스가 이제 작은 클러스터가 됐다.

6월 1일 릴리스에 담긴 것

이번 업데이트는 DGX OS 7.5.0 Spark 빌드로 출시되며 드라이버 580.159.03, CUDA 13.0.2, NCCL 2.30u1을 포함한다. 자가 호스팅 사용자에게 가장 중요한 세 가지 변화:

Sync Cluster Assistant가 이제 설정(Settings) 페이지에 직접 노출된다. 스위치 없이 최대 3대의 DGX Spark, 또는 스위치로 4대를 연결하는 과정을 수동 네트워크 배선 없이 안내한다.
NCCL 2.30u1은 3대 Spark 링 토폴로지 지원을 추가한다. 이 집단 통신(collective communication) 백본이야말로 여러 박스에 걸친 텐서 병렬·파이프라인 병렬을 실제로 작동하게 하는 핵심이다.
재설계된 개봉 경험(OOBE): 초기 설정 중 OTA 업데이트가 더 이상 강제 설치되지 않아, 새 Spark가 더 빨리 사용 가능한 상태로 부팅되며, 이후 사용자는 playbook 사이트로 안내된다.

릴리스 노트는 또한 에어갭(air-gapped) 배포·업데이트 흐름, cloud-init를 통한 기업용 맞춤 ISO, DGX Dashboard의 “release highlights” 패널, Ubuntu HWE 커널 스택도 나열한다——이런 플릿 관리(fleet management) 배관은, NVIDIA가 Spark를 IT 부서가 대수 단위로 배포하는 무언가로 다루기 시작했다는 신호이지, 더 이상 연구자 한 명의 책상 위 장난감이 아니다.

왜 ‘클러스터링’이 진짜 핵심인가

한 대의 Spark는 128 GB 통합 LPDDR5X를 약 273 GB/s 대역으로 갖는다——4-bit라면 70B급 모델을 호스팅하기에 충분하지만, 그보다 크면 메모리에 묶인다. 정말 흥미로운 워크로드——완전한 100B 이상 MoE, 또는 한 박스가 프롬프트를 처리하고 다른 박스가 토큰을 스트리밍하는 분리형(disaggregated) prefill/decode——은 고속 링크로 대화하는 두 대 이상의 Spark가 필요하다. 커뮤니티는 바로 이것을 몇 달째 손으로 배선해 왔다(EXO 스타일의 Spark + Mac Studio 구성은 2025년 말로 거슬러 올라간다). 6월 1일에 바뀐 것은, 그 배선이 이제 퍼스트파티가 됐다는 점이다——포럼 글과 기도가 아니라, 설정 페이지의 어시스턴트와 토폴로지를 내장한 NCCL 빌드.

알아둘 만한 버전 번호 각주

NVIDIA 자체 문서에 진짜 뒤틀림이 있다. 범용 DGX OS 7 릴리스 노트는 7.5.0을 4월 초 빌드로, 드라이버 580.142와 NCCL 2.29.7로 기재한다. 반면 Spark 전용 6월 1일 노트는 같은 7.5.0 라벨 아래 드라이버 580.159.03과 NCCL 2.30u1을 싣는다. 둘은 같은 비트가 아니다. Spark에서 재현성을 위해 스택을 맞춘다면 Spark 릴리스 노트 페이지를 인용하고 580.159.03 / NCCL 2.30u1로 고정하라——포괄적인 “7.5.0” 버전 문자열만으로는 단독으로 믿기에 정밀하지 않다.

실무 노트

Spark를 한 대만 돌린다면 OOBE와 에어갭 업데이트 변경은 조용한 편의성 향상이다——설치 프로그램이 아니라 당신의 일정대로 업데이트하라. 두 번째·세 번째 박스를 노려왔다면 이 릴리스는 청신호다: 3노드, 스위치 없는 클러스터링이 이제 직접 만드는 과학 실험이 아니라 지원되는 경로가 됐고, NCCL 2.30u1이 집단 연산을 시도할 가치가 있을 만큼 빠르게 만든다. 두 번째 유닛을 사기 전 두 가지 주의. NVIDIA는 이 릴리스에서 멀티 Spark 추론의 퍼스트파티 tok/s 수치를 공개하지 않았으므로, 기대치는 메모리 대역폭 계산에서 잡아라——박스당 273 GB/s이며, 토큰 생성의 병목은 GB10이 아니라 인터커넥트가 된다. 또한 위의 드라이버 버전 불일치를 주시해, 링 안의 모든 노드가 동일한 비트를 돌리게 하라.

덜 다뤄진 관점

저항해야 할 프레이밍은 “박스가 많을수록 빠르다”이다. 단일 스트림 챗 워크로드에서 3대 Spark 링은 초당 토큰을 세 배로 만들지 않는다——생성은 메모리 대역폭과 링에서 가장 느린 홉에 묶이고, 노드를 더하면 통신 오버헤드가 늘어난다. 클러스터링이 실제로 사주는 것은 용량이다: 128 GB에 들어가지 않던 모델이 이제 384 GB에 걸쳐 들어가고, 분리형 서빙은 큰 prefill 배치와 저지연 decode 스트림이 같은 칩을 두고 다투지 않게 한다. 6월 릴리스는 “한 대의 Spark엔 너무 큰 모델을 어떻게 돌리나”에 대한 NVIDIA의 답으로 읽어야지, “한 대의 Spark를 어떻게 더 빠르게 하나”가 아니다. 이는 서로 다른 질문이고, Sync Cluster Assistant는 첫 번째 질문에만 답한다.