2026-06-10 — 次浏览

llama.cpp b9555 为 Blackwell SM121 推出原生 NVFP4 内核，释放 DGX Spark 完整性能

llama.cpp b9555 为 Blackwell SM121/GB10 推出原生 NVFP4 GEMM 内核——首个绕过 FP16 计算回退路径的版本，DGX Spark 单用户解码吞吐量估计提升 30–40%。

这次发布

2026 年 6 月 8 日在 ggml-org GitHub 仓库发布的 llama.cpp b9555，是 DGX Spark 用户期待已久的版本。CUDA 后端首次附带针对 Blackwell SM121——DGX Spark 内 GB10 芯片的计算架构——编译的原生 NVFP4 矩阵乘法内核。在此之前，在 Spark 上运行 NVFP4 量化模型，要么需要 TensorRT-LLM（快速但操作复杂），要么需要 vLLM（高吞吐量但单用户有额外开销）。llama.cpp 轻量的单一二进制部署模式现在终于有了相匹配的硬件加速。

NVFP4 在 GB10 上为何重要

Grace Blackwell GB10 SoC 具备两项相对前一代硬件的根本优势：Grace CPU 与 Blackwell GPU 之间 900 GB/s 双向 NVLink-C2C 连接，以及原生张量核心对 NVFP4 等次 8 位格式的支持。对推理工作负载而言，NVFP4 将 FP8 表示的内存占用再减半，直接转化为每设备的模型容量。

Qwen3-30B 以 FP16 格式约占 Spark 128GB 统一内存的 60GB；以 NVFP4 则约 15GB，为 128K token KV 缓存留下充足空间而无需溢出到系统内存。

b9555 实际改变了什么

在 b9555 之前，llama.cpp 的 CUDA 后端可以在 Blackwell 硬件上加载 NVFP4 量化的 GGUF 文件，但矩阵乘法运算回退到软件去量化再乘法的路径——没有张量核心利用，用 FP16 计算速度执行 NVFP4 权重，在内核层面抵消了带宽节省。

b9555 合并的 PR 将 NVFP4 输入直接接入 Blackwell 的块缩放 GEMM 张量核心路径。实现处理密集模型和专家（MoE）层的 NVFP4 张量名称及其对应的缩放因子张量，这是早期实验性补丁对 MoE 模型未完全解决的细节。

预期性能影响

使用之前的回退路径，Llama-4-Scout-17B 的 NVFP4 在 DGX Spark 单用户模式下约可实现 45–50 tokens/s 的解码速度。SM121 原生内核路径预计可缩小与 TensorRT-LLM 参考数字约 65–70 tokens/s 的差距——无需更改服务堆栈或模型权重，吞吐量提升 30–40%。

实际应用意义

对在 DGX Spark 上运行本地推理的团队而言，b9555 使 llama.cpp 成为 NVFP4 模型的一流选项。历史上的框架选择逻辑是：llama.cpp 用于单用户交互工作负载，vLLM 用于并发多用户或批次工作负载。b9555 之后这个分工仍然成立，但在单用户场景下与 vLLM NVFP4 路径的性能差距已比 2026 年任何时候都更接近。

结论：如果你在 DGX Spark 上运行 NVFP4 GGUF 模型并选用 llama.cpp，请更新到 b9555 并重新运行基准测试。