2026-06-10 — 회 조회

llama.cpp b9555, Blackwell SM121용 네이티브 NVFP4 커널 탑재 — DGX Spark 풀 퍼포먼스 해제

llama.cpp b9555가 Blackwell SM121/GB10용 네이티브 NVFP4 GEMM 커널을 탑재. FP16 컴퓨팅 폴백을 우회한 첫 빌드로 DGX Spark 싱글 유저 디코드 처리량 30–40% 향상 예상.

이번 릴리스

2026년 6월 8일 ggml-org GitHub 저장소에 공개된 llama.cpp b9555는 DGX Spark 사용자들이 기다려온 빌드다. CUDA 백엔드가 처음으로 Blackwell SM121——DGX Spark의 GB10 칩 연산 아키텍처——을 위해 컴파일된 네이티브 NVFP4 행렬 곱 커널을 탑재했다. 이전에는 Spark에서 NVFP4 양자화 모델을 실행하려면 TensorRT-LLM(빠르지만 운영 부담이 큼)이나 vLLM(고처리량이지만 싱글 유저에서 오버헤드 있음)이 필요했다. llama.cpp의 경량 단일 바이너리 배포 모델이 이제 그에 걸맞은 하드웨어 가속을 갖추게 됐다.

GB10에서 NVFP4가 중요한 이유

Grace Blackwell GB10 SoC에는 이전 세대 하드웨어 대비 두 가지 근본적인 장점이 있다. Grace CPU와 Blackwell GPU 사이의 900 GB/s 양방향 NVLink-C2C 연결, 그리고 NVFP4 등 8비트 미만 포맷에 대한 네이티브 텐서 코어 지원이다. 추론 워크로드에서 NVFP4는 이미 컴팩트한 FP8의 메모리 점유를 다시 절반으로 줄여 디바이스당 모델 용량으로 직결된다.

Qwen3-30B는 FP16 포맷으로 Spark의 128GB 통합 메모리 중 약 60GB를 사용하지만, NVFP4에서는 약 15GB로 줄어 시스템 RAM 스필 없이 128K 토큰 KV 캐시를 위한 충분한 공간이 생긴다.

b9555가 실제로 바꾼 것

b9555 이전, llama.cpp의 CUDA 백엔드는 Blackwell 하드웨어에서 NVFP4 양자화 GGUF 파일을 로드할 수 있었지만 행렬 곱 연산은 소프트웨어 역양자화 후 곱하기 경로로 폴백됐다. 텐서 코어를 활용하지 못하고 FP16 연산 속도로 NVFP4 가중치를 실행한 셈이었다.

b9555에서 병합된 PR은 NVFP4 입력을 Blackwell의 블록 스케일드 GEMM 텐서 코어 경로에 직접 연결했다. 밀집 레이어와 전문가(MoE) 레이어 모두에서 NVFP4 텐서 이름과 대응하는 스케일 팩터 텐서를 처리하는 구현은, 이전 실험적 패치가 MoE 모델에서 완전히 해결하지 못했던 부분이다.

예상 성능 향상

기존 폴백 경로를 사용하면 Llama-4-Scout-17B NVFP4가 DGX Spark 싱글 유저 모드에서 약 45–50 tokens/s의 디코드 속도를 냈다. SM121 네이티브 커널 경로로 TensorRT-LLM의 참조값 65–70 tokens/s에 가까워질 것으로 예상된다. 서빙 스택이나 모델 가중치 변경 없이 30–40% 처리량 향상이다.

실용적 시사점

DGX Spark에서 로컬 추론을 실행하는 팀에게 b9555는 llama.cpp를 NVFP4 모델의 1순위 옵션으로 만든다. 운영 편의성 때문에 llama.cpp를 쓰고 있다면 b9555로 업데이트하고 벤치마크를 재실행하라.