2026-06-08 — 회 조회

TensorRT-LLM rc17, SM121(DGX Spark)용 NVFP4 MoE 백엔드와 NVFP4 KV 캐시 추가

TensorRT-LLM v1.3.0rc17(6월 2일)은 SM120/SM121 전용으로 활성화되는 FlashInfer NVFP4 MoE 백엔드를 추가하고 trtllm-gen attention에서 NVFP4 KV 캐시를 활성화하며, SM120/121에서의 qwen3 행 현상도 수정했다 — DGX Spark의 소비자용 Blackwell에 대한 구체적 지원.

무엇이 출시되었나

NVIDIA는 2026년 6월 2일에 TensorRT-LLM v1.3.0rc17을 태그했다. 긴 변경 로그 속에, 데이터센터 랙이 아니라 단일 Grace Blackwell 머신에서 대형 모델을 돌리는 사람들에게 특히 중요한 두 항목이 묻혀 있다.

첫째는 신기능: “Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron”(PR #13773). 둘째: “Enable NVFP4 KV cache support in trtllm-gen attention”(PR #12544). 그리고 대상이 누구인지 조용히 알려주는 버그 수정도 있다 — “Fix qwen3 hang on SM120/121”(PR #14424).

왜 SM121이 핵심인가

SM120과 SM121은 소비자용 Blackwell의 compute capability다. SM120은 RTX 50 시리즈이고, SM121은 DGX Spark 안의 GB10이다. 이들은 데이터센터 Blackwell(SM100)과 같지 않다. SM12x의 텐서 코어 프로그래밍 모델은 데이터센터 Blackwell의 tcgen05보다 Ampere의 mma.sync에 더 가깝기 때문에, 데이터센터 부품용으로 컴파일된 커널은 SM121용으로 다시 빌드되기 전까지 GB10에서 실행되지 않는다.

바로 그 간극이 “SM120/SM121 전용으로 활성화되는” 백엔드가 뉴스가 되는 이유다. 이 타깃들을 위해 명시적으로 컴파일된 FlashInfer NVFP4 Mixture-of-Experts(MoE) 경로가 있다는 것은, Nemotron급 MoE 모델이 더 느린 범용 경로로 폴백하는 대신 DGX Spark에서 FP4 텐서 코어를 사용할 수 있다는 뜻이다. NVIDIA 포럼 사용자들은 공식 SM121 소프트웨어 로드맵을 몇 주째 요구해 왔다. rc17은 그것이 조금씩 채워지는 한 조각이다.

이야기의 KV 캐시 절반

NVFP4 KV 캐시 항목은 또 다른 지렛대다. NVIDIA 자체 엔지니어링 글에 따르면, NVFP4 KV 캐시는 FP8 대비 캐시 메모리 사용량을 최대 50% 줄이며, 그들이 공개한 벤치마크 전반에서 정확도 손실은 1% 미만이다(예: Qwen3-480B-A35B에서 MMLU-PRO는 FP8의 78.1% 대비 77.4%, Ruler 64K는 95.5% 대비 94.6%). 값은 attention 연산이 실행되기 전에 NVFP4에서 FP8로 역양자화된다.

rc17의 지렛대	무엇을 얻는가
FlashInfer NVFP4 MoE(SM120/SM121)	GB10 / RTX 50용으로 실제로 컴파일되는 FP4 전문가 커널
NVFP4 KV 캐시(trtllm-gen attention)	KV 메모리가 FP8의 약 절반; context나 batch를 두 배로 늘릴 여지
qwen3 SM120/121 행 수정	소비자 Blackwell에서 Qwen3의 하드 블로커 제거

128GB 통합 메모리 부품에서 KV 캐시 바이트를 절반으로 줄이는 것은 마이크로벤치마크 과시가 아니다 — 긴 context 세션이 들어맞느냐 스래싱하느냐의 차이다. NVIDIA는 대규모 수치에서 동일한 NVFP4 KV 캐시가 context 길이와 batch 크기를 최대 약 두 배로, 첫 토큰까지의 시간(TTFT)을 최대 3배 개선할 수 있다고 보고하지만, 이 대표 수치들은 데이터센터 Blackwell에서 나온 것이며 실측된 GB10 실행이 아니다.

실무 메모

이것은 릴리스 후보(rc17)이며, 릴리스 자체가 알려진 문제를 명시한다: DeepSeek V3.2는 장시간 agg/disagg 성능 테스트 중 불법 메모리 접근으로 크래시할 수 있다. rc17을 DGX Spark에 가져와 FP4 MoE 경로를 시험한다면, 프로덕션이 아니라 평가로 다뤄라 — 정확한 build를 고정하고, KV 캐시 양자화를 당신의 워크로드에서 신뢰하기 전에 직접 정확도 스폿 체크를 하며, 동봉된 flashinfer-python 자체도 릴리스 후보(0.6.12rc2로 상향)라는 점에 유의하라. NVFP4 KV 캐시는 또한 올바른 레시피로 양자화된 모델(Model Optimizer를 통한 사후 학습 또는 양자화 인식 학습)이 필요하며, 임의의 FP16 체크포인트에서 켜는 런타임 플래그가 아니다.

덜 고려된 관점

조용한 이야기는 NVFP4 지원이 “데이터센터 Blackwell에서 돈다”에서 “당신 사무실의 칩용으로 컴파일된다”로 스택 아래쪽으로 이동하고 있다는 것이다. 공개된 NVFP4 수치의 대부분 — 50% KV 절감, 3배 TTFT, 그 정확도 표 — 은 SM100 데이터센터 부품에서 측정되었지만, SM12x 명령어 집합은 실제로 다르다. 따라서 DGX 소유자에게 흥미로운 미해결 질문은 NVFP4가 원리적으로 도움이 되느냐가 아니라, SM121로 재컴파일한 후 데이터센터의 이점이 실제로 얼마나 살아남느냐다 — 그곳에서는 텐서 코어 경로가 Ampere에 더 가깝게 보인다. rc17은 커널을 주었다. 정직한, GB10에서 측정된 차이는 아직 빚으로 남아 있다.