Builder Daily

2026-05-04

DGX Spark에서 Qwen3 MoE — NVFP4 vs FP8 벤치마크와 실제로 동작하는 설정

GB10에서 Qwen3.6-35B-A3B와 Qwen3.5-122B-A10B의 커뮤니티 검증 수치: NVFP4+MTP로 단일 사용자 55.9 tok/s, c=32에서 433 tok/s 달성. TRITON-only MoE 백엔드 문제와 MTP+prefix-cache 실패 모드 포함.

2026년 5월, DGX Spark(GB10, 128 GB 통합 LPDDR5X)에서 Qwen3 MoE에 대한 커뮤니티 벤치마크 결과가 안정화되었습니다. 다음은 검증된 수치와 이를 달성하는 설정입니다.

Qwen3.6-35B-A3B — 일상 사용 설정

모델: RedHatAI/Qwen3.6-35B-A3B-NVFP4
컨테이너: vllm/vllm-openai:cu130-nightly(NVFP4에는 필수 — 다른 vLLM 이미지는 양자화 형식 오류 발생)
백엔드: --moe-backend=flashinfer_cutlass

시나리오출력 tok/s평균 TTFTMTP 수락률
단일 사용자(512 입력 / 512 출력)55.9166 ms85.4%
동시성 32(1024 입력 / 512 출력)433.42,317 ms85.2%
긴 출력(4096 토큰)158.0251 ms92.8%

MTP-1(투기적 디코딩, 초안 토큰 1개)이 FP8 기준 약 32 tok/s에서 55.9 tok/s로의 도약을 만들어냅니다. 85~93% 수락률은 초안 토큰이 대부분 채택됨을 의미합니다.

MTP 없이는 FP8이 단일 사용자에서 28~33 tok/s, c=32에서 155.6 tok/s가 상한선입니다. 273 GB/s LPDDR5X 메모리 대역폭이 토큰 생성의 하드 한계입니다.

Qwen3.5-122B-A10B — 최적화 사다리

이 대형 모델에는 vLLM 0.19+와 2026년 4월 Marlin 커널 수정이 필요합니다:

설정Tok/s향상
기준 INT4(Intel AutoRound)28.3
+ 공유 expert 레이어에 Hybrid INT4+FP830.8+8.8%
+ MTP-1 투기적 디코딩(FlashInfer)38.4+35.8%

38.4 tok/s가 단일 Spark에서 검증된 하드웨어 상한선입니다. 작업 유형에 따라 차이가 있어 짧은 수학 출력은 36.3 tok/s, 긴 코드 생성(2048+ 토큰)은 39.9 tok/s였습니다.

시간을 낭비하는 함정들

1. SM121에서 MoE 백엔드는 TRITON 전용. FP8 MoE에서는 소비자 Blackwell에서 FLASHINFER, CUTLASS, DEEPGEMM을 사용할 수 없습니다. NVFP4는 명시적 플래그로 flashinfer_cutlass를 얻습니다.

2. MTP + prefix caching = 실패. 투기적 디코딩과 prefix caching을 동시에 실행하면 c=8에서 17/32 요청이 실패합니다(FP8 모델). 상위에서 수정될 때까지 하나만 사용하세요.

3. NVFP4는 2026년 4월 전까지 INT4보다 느렸음. Marlin 커널 수정이 이를 바꿨습니다. 4월 이전 컨테이너에서 NVFP4가 16.6 tok/s를 보이면 컨테이너를 업데이트하세요.

4. CUDA 그래프 컴파일에 5~8분 소요. 서버가 처음 시작할 때 멈춘 것처럼 보이지만 컴파일 중입니다. readiness probe 타임아웃을 최소 600초로 설정하세요.

5. Qwen3-27B 미양자화 상한. BF16/FP8로는 대역폭 이론값에서 약 10 tok/s(27 GB × 1바이트 = 27 GB/패스, ÷ 270 GB/s). MTP-3도 최상의 경우 15.2 tok/s. 이 크기에서 대화형 사용을 원한다면 NVFP4가 정답입니다.

빠른 시작 명령어

docker run -d --gpus all --ipc host --shm-size 64gb \
  -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:cu130-nightly \
  RedHatAI/Qwen3.6-35B-A3B-NVFP4 \
  --served-model-name qwen3.5-35b \
  --host 0.0.0.0 --port 8000 \
  --dtype bfloat16 --gpu-memory-utilization 0.9 \
  --max-model-len 262144 \
  --enable-prefix-caching \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --moe-backend=flashinfer_cutlass

MTP-1 투기적 디코딩 활성화: --speculative-model-type=ngram --num-speculative-tokens=1


Sources

커피