2026-06-10 — 次浏览
llama.cpp b9555 为 Blackwell SM121 推出原生 NVFP4 内核,释放 DGX Spark 完整性能
llama.cpp b9555 为 Blackwell SM121/GB10 推出原生 NVFP4 GEMM 内核——首个绕过 FP16 计算回退路径的版本,DGX Spark 单用户解码吞吐量估计提升 30–40%。
这次发布
2026 年 6 月 8 日在 ggml-org GitHub 仓库发布的 llama.cpp b9555,是 DGX Spark 用户期待已久的版本。CUDA 后端首次附带针对 Blackwell SM121——DGX Spark 内 GB10 芯片的计算架构——编译的原生 NVFP4 矩阵乘法内核。在此之前,在 Spark 上运行 NVFP4 量化模型,要么需要 TensorRT-LLM(快速但操作复杂),要么需要 vLLM(高吞吐量但单用户有额外开销)。llama.cpp 轻量的单一二进制部署模式现在终于有了相匹配的硬件加速。
NVFP4 在 GB10 上为何重要
Grace Blackwell GB10 SoC 具备两项相对前一代硬件的根本优势:Grace CPU 与 Blackwell GPU 之间 900 GB/s 双向 NVLink-C2C 连接,以及原生张量核心对 NVFP4 等次 8 位格式的支持。对推理工作负载而言,NVFP4 将 FP8 表示的内存占用再减半,直接转化为每设备的模型容量。
Qwen3-30B 以 FP16 格式约占 Spark 128GB 统一内存的 60GB;以 NVFP4 则约 15GB,为 128K token KV 缓存留下充足空间而无需溢出到系统内存。
b9555 实际改变了什么
在 b9555 之前,llama.cpp 的 CUDA 后端可以在 Blackwell 硬件上加载 NVFP4 量化的 GGUF 文件,但矩阵乘法运算回退到软件去量化再乘法的路径——没有张量核心利用,用 FP16 计算速度执行 NVFP4 权重,在内核层面抵消了带宽节省。
b9555 合并的 PR 将 NVFP4 输入直接接入 Blackwell 的块缩放 GEMM 张量核心路径。实现处理密集模型和专家(MoE)层的 NVFP4 张量名称及其对应的缩放因子张量,这是早期实验性补丁对 MoE 模型未完全解决的细节。
预期性能影响
使用之前的回退路径,Llama-4-Scout-17B 的 NVFP4 在 DGX Spark 单用户模式下约可实现 45–50 tokens/s 的解码速度。SM121 原生内核路径预计可缩小与 TensorRT-LLM 参考数字约 65–70 tokens/s 的差距——无需更改服务堆栈或模型权重,吞吐量提升 30–40%。
实际应用意义
对在 DGX Spark 上运行本地推理的团队而言,b9555 使 llama.cpp 成为 NVFP4 模型的一流选项。历史上的框架选择逻辑是:llama.cpp 用于单用户交互工作负载,vLLM 用于并发多用户或批次工作负载。b9555 之后这个分工仍然成立,但在单用户场景下与 vLLM NVFP4 路径的性能差距已比 2026 年任何时候都更接近。
结论:如果你在 DGX Spark 上运行 NVFP4 GGUF 模型并选用 llama.cpp,请更新到 b9555 并重新运行基准测试。