2026-05-03

DGX Spark 배포 노트: 커뮤니티가 2026 Q2에 실제로 마주친 문제들

NVIDIA Developer Forums에서 DGX Spark / GB10 관련해 반복적으로 등장한 여섯 가지 배포 함정(대부분 하드웨어가 아닌 소프트웨어), 그리고 MoE + NVFP4/MXFP4에 대한 커뮤니티 합의를 정리했습니다.

NVIDIA DGX Spark / GB10에서 로컬 LLM 서비스를 운영하려고 한다면, NVIDIA Developer Forums의 “DGX Spark / GB10” 카테고리가 가장 신호 강도가 높은 출발점입니다. 아래는 2026년 초 커뮤니티가 기록 중인 사실들을 개발자 관점에서 정리한 것입니다.

반복적으로 등장하는 여섯 가지 장애 모드(하드웨어보다 소프트웨어를 먼저 의심하라)

1. GPU가 ~5W / 0% 사용률에 멈춰 있음

드라이버/CUDA 불일치입니다. 2026년 1월 기준으로 알려진 정상 조합은 Driver 580.95.05 + CUDA 13.0입니다. 구형 550.54.15 + CUDA 12.4는 Spark에서 동작하지 않습니다. GPU가 죽었다고 단정하기 전에 둘 다 업데이트하세요.

2. 80~86°C “thermal throttling”

대개 가짜 알람이며 Spark 사양 범위 안입니다. 진짜 원인은 filesystem cache가 unified memory를 채우면서 오래된 CUDA 도구가 stale 상태를 보고하게 만드는 경우가 많습니다.

sudo sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

3. Dense 70B FP8이 2~3 tok/s에 멈춤

설정 버그가 아닙니다. 이 크기의 dense 모델에서는 273 GB/s LPDDR5X 메모리 대역폭 천장입니다. 커뮤니티의 합의는 이렇습니다. 토큰당 활성 파라미터가 더 적은 MoE 모델로 바꾸거나(gpt-oss-120b 활성 ~5B, Qwen3-MoE, GLM), draft 모델과 함께 speculative decoding을 사용하세요.

4. 멀티 노드 NCCL이 조용히 느려짐

ConnectX-7 NCCL은 pod에 privileged가 없거나 VF NetworkAttachmentDefinition이 누락된 경우 오류 없이 TCP socket으로 fallback합니다. 차이는 큽니다. RoCE가 실제로 동작할 때 **2.12 → 9.78 GB/s(4.6배)**입니다. 모델 코드가 병목이라고 의심하기 전에 transport를 먼저 검증하세요.

5. 126.5 GB unified memory 부근에서 시스템 크래시

128 GB 전체가 안전 공간이라고 가정하지 마세요. llama-swap orchestration은 물리적 한계 미만에서 적응적 memory cap이 필요합니다.

6. ASUS Ascent GX10이 30W “Safety Mode”에 멈춤

이건 진짜 하드웨어 이슈입니다. USB-PD 펌웨어 협상 실패입니다. ASUS 브랜드 변형에 영향을 주며, 커뮤니티가 증상을 기록해 두었습니다.

빠른 분류 도구

커뮤니티가 만든 spark-doctor CLI는 위 여섯 항목을 한 번에 점검합니다. 포럼 thread를 열기 전에 한 번 돌려, “X 확인해 봤어요?” 같은 왕복을 줄이세요.

로컬 LLM 성능에 대한 정량적 합의

2026 Q1~Q2 커뮤니티 합의는 MoE 모델 + NVFP4 / MXFP4 양자화로 Spark에서 운영하는 것입니다. gpt-oss-120b와 Qwen3.5-35B-A3B가 가장 자주 언급되는 두 가지 선택지입니다. 네이티브 NVFP4는 llama.cpp의 build b8967(2026-04-29) 에 들어왔습니다.

실전 노트(개인적인)

2026 Q2에 Spark를 처음부터 셋업하는 분이라면, 가져갈 점은 세 가지입니다.

처음부터 Driver 580.95.05 + CUDA 13.0으로 고정하세요. 포럼 thread의 성능 불만은 대부분 구형 드라이버가 제거되지 않은 사례로 추적됩니다.
dense 70B+를 운영하지 마세요. 처리량이 중요하다면요. active-parameter가 작은 MoE를 골라 같은 메모리에서 5~10배의 tok/s를 얻으세요.
멀티 노드로 간다면, RoCE가 실제로 올라왔는지 검증하세요. TCP 무음 fallback은 thread에서 가장 비싼 footgun입니다.

하드웨어 자체는 매우 빠릅니다. 2026 Q1~Q2의 불만 대부분은 소프트웨어 상태와 설정의 문제입니다.