DGX Spark 배포 노트
NVIDIA DGX Spark / GB10 커뮤니티의 로컬 LLM 배포 실전 노하우.
2026-05-04
DGX Spark에서 Qwen3 MoE — NVFP4 vs FP8 벤치마크와 실제로 동작하는 설정
GB10에서 Qwen3.6-35B-A3B와 Qwen3.5-122B-A10B의 커뮤니티 검증 수치: NVFP4+MTP로 단일 사용자 55.9 tok/s, c=32에서 433 tok/s 달성. TRITON-only MoE 백엔드 문제와 MTP+prefix-cache 실패 모드 포함.
2026-05-03
DGX Spark 배포 노트: 커뮤니티가 2026 Q2에 실제로 마주친 문제들
NVIDIA Developer Forums에서 DGX Spark / GB10 관련해 반복적으로 등장한 여섯 가지 배포 함정(대부분 하드웨어가 아닌 소프트웨어), 그리고 MoE + NVFP4/MXFP4에 대한 커뮤니티 합의를 정리했습니다.
2026-05-02
GB10(SM121)에서 llama.cpp NVFP4와 MXFP4 빌드 가이드
DGX Spark GB10(SM121)용 llama.cpp NVFP4/MXFP4 완전한 빌드 플래그. PR #22196 머지 후 gpt-oss-120B MXFP4에서 pp2048=1,980 tok/s, tg32=35 tok/s 달성.
2026-05-01
DGX Spark에서 vLLM vs llama.cpp vs Ollama — 어떤 추론 스택을 써야 하나
GB10 추론 스택 결정 가이드: MoE+고동시성은 vLLM, MXFP4 프롬프트·단일 사용자는 llama.cpp, 제로 설정 개발은 Ollama. NVFP4 tok/s 비교 포함.
2026-04-30
LiteLLM + Claude Code on DGX Spark — LAN 서빙 설정과 프로토콜 변환
LiteLLM 프록시로 Claude Code API 호출을 DGX Spark의 Qwen3 모델로 라우팅. 설정, 모델 별칭 매핑, 클라우드 API 대비 레이턴시 트레이드오프 분석 포함.