2026-05-24 — 회 조회

llama.cpp, 네이티브 MTP 추측 디코딩 병합 — Qwen3.6 단일 요청 디코딩 약 2.16배, DGX Spark 수혜

PR #22673이 llama.cpp에 네이티브 다중 토큰 예측(MTP) 추측 디코딩을 추가(build b9180+). GB10 DGX Spark에서 Qwen3.6-27B Q4_K_M 단일 요청이 13.1에서 28.3 tok/s로 — 다만 동시 처리에서는 오히려 하락.

가정·개인 셀프호스터가 기다려온 기능이 이번 달 업스트림에 들어왔다: 네이티브 다중 토큰 예측(MTP) 추측 디코딩이 PR #22673(“llama + spec: MTP Support”, 작성자 am17an)으로 2026-05-16 master에 병합되어 build b9180 이상에 수록됐다. GB10 DGX Spark에서 Qwen3.6의 단일 요청 디코딩 처리량을 대략 두 배로 늘리지만, 부하 상황에서 그 가치를 뒤집는 중요한 단서가 있다.

MTP 추측 디코딩이란

추측 디코딩은 먼저 여러 후보 토큰을 저렴하게 “초안”으로 만든 뒤, 이를 한 번의 forward 패스로 검증하여 생성을 가속한다. 기존 방식은 별도의 작은 draft 모델을 병행 실행해야 했다 — 추가 메모리, 추가 설정, 그리고 품질 매칭의 번거로움이 따른다.

MTP는 두 번째 모델을 없앤다. Qwen3.6은 네이티브 다중 토큰 예측 헤드를 내장하고 있어 모델 자체가 여러 미래 토큰을 예측한다. llama.cpp의 새 --spec-type draft-mtp 모드는 이 내장 헤드를 초안 소스로 사용하므로, 동일한 가중치가 초안과 검증을 모두 담당한다. draft 모델을 구할 필요가 없고, 불일치 위험도 없으며, 초안이 타깃 모델 자체에서 나오므로 품질도 더 높다.

적극성을 제어하는 두 파라미터:

--spec-draft-n-max — 단계마다 몇 개의 토큰을 초안으로 만들지 (아래 실측에서 5가 최적점)
--spec-draft-p-min — 초안 토큰이 채택되는 최저 수용 확률

실측 — GB10 DGX Spark

NVIDIA 개발자 포럼의 커뮤니티 실측(2026-05-15)은 DGX Spark에서 Qwen3.6-27B dense, Q4_K_M을 실행했다:

시나리오	MTP 없음	MTP 있음(초안 5)	변화
단일 요청	13.1 tok/s	28.3 tok/s	+2.16×
4개 동시 요청	41.5 tok/s	29.9 tok/s	−28%

단일 스트림의 향상은 실제이고 크다. 그러나 두 번째 행에 주목하라: 4개 동시 요청에서 MTP는 총 처리량을 오히려 떨어뜨린다. 이는 버그가 아니라 추측 디코딩의 근본적인 트레이드오프다.

단서: 지연 시간 vs 처리량

추측 디코딩은 유휴 연산력을 낮은 지연 시간과 맞바꾼다. 한 번에 하나의 요청만 처리할 때 GB10의 텐서 코어는 디코딩 루프 대부분에서 놀고 있으므로(Spark의 273 GB/s LPDDR5X에서 디코딩은 메모리 대역폭 제약), 추가 토큰 초안 작성은 거의 공짜이고 2배 가속을 얻는다.

배치 처리에서는 반대다: 동시 요청이 이미 연산력을 포화시키므로 초안이 사이클을 두고 경쟁하고, 거부된 토큰의 낭비 작업이 총 처리량을 끌어내린다. 이로 인해 MTP는 단일 사용자 대화형 셀프호스팅의 킬러 기능 — 그러나 다중 사용자 서빙 머신에는 잘못된 기본값이 된다. DGX Spark가 개인 코딩/어시스턴트 엔드포인트라면 켜라. 여러 동료에게 제공한다면 꺼두라.

하드웨어를 넘어 재현됨

이 효과는 Spark 전용이 아니다. RTX 3090에서의 크로스 플랫폼 글은 **Qwen3.6-27B에서 38 → 65 tok/s (1.71×)**를 품질 손실 없이 측정했고 Qwen3.6-35B-A3B에서도 확인했다. MTP 활성화 GGUF는 이미 Hugging Face에 있으므로(예: froggeric/Qwen3.6-27B-MTP-GGUF) 가중치를 직접 변환할 필요가 없다 — MTP build를 받고, MTP GGUF를 받고, --spec-type draft-mtp 플래그를 추가하면 된다.

동반 진전: TensorRT-LLM v1.3.0rc15

Spark 생태계의 프로덕션 추론 쪽에서는 NVIDIA가 2026-05-21에 TensorRT-LLM v1.3.0rc15를 출시했다(프로젝트는 대략 주간 rc 케이던스 — rc14는 2026-05-07). GB10(SM 12.1) 관련 요점:

Gemma4를 텍스트·비전·오디오·chunked-prefill 지원으로 추가 — Blackwell 추론의 새 멀티모달 패밀리.
SM120/121용 INT4-AWQ 커널, Spark급 하드웨어를 직접 커버.
확장된 NVFP4 / MXFP4 MoE 백엔드(MegaMoE DeepGEMM, Nemotron-H용 CUTEDSL MoE, W4A8_MXFP4_FP8)와 FP4/FP8 디코드 커널 인덱싱 최적화.

두 경로는 상호 보완적이다: llama.cpp MTP는 오늘 단일 사용자 대화형 용도로 가장 손쉬운 길이고, TensorRT-LLM은 양자화 MoE와 멀티모달 서빙 성능이 Blackwell에서 성숙해가는 곳이다.

핵심 정리

DGX Spark를 개인 LLM 엔드포인트로 운영한다면, MTP 병합은 이번 달 레버리지가 가장 높은 업데이트다: build를 올리고 플래그 하나로 Qwen3.6에서 약 2배의 대화형 가속을 얻으며 draft 모델도 필요 없다. 다만 단일 스트림 최적화임을 기억하라 — 공유 머신에서 켜기 전에 자신의 동시성 수준으로 벤치마크하라.