Skip to content
AI-Daily-Builder

2026-06-08 次浏览

TensorRT-LLM rc17 为 SM121(DGX Spark)带来 NVFP4 MoE 后端与 NVFP4 KV 缓存

TensorRT-LLM v1.3.0rc17(6 月 2 日)新增一条仅针对 SM120/SM121 启用的 FlashInfer NVFP4 MoE 后端,并在 trtllm-gen attention 中启用 NVFP4 KV 缓存,还修复了 qwen3 在 SM120/121 上的卡死——这是 DGX Spark 在消费级 Blackwell 上的具体支持。

发布了什么

NVIDIA 于 2026 年 6 月 2 日标记了 TensorRT-LLM v1.3.0rc17。在一份冗长的变更日志中,埋着两条对于在单台 Grace Blackwell 机器(而非数据中心机架)上跑大型模型的人特别重要的条目。

第一条是新功能:「Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron」(PR #13773)。第二条:「Enable NVFP4 KV cache support in trtllm-gen attention」(PR #12544)。还有一条 bug 修复悄悄点明了受众——「Fix qwen3 hang on SM120/121」(PR #14424)。

为什么 SM121 是重点

SM120 与 SM121 是消费级 Blackwell 的计算能力(compute capability)。SM120 是 RTX 50 系列;SM121 是 DGX Spark 中的 GB10。它们与数据中心 Blackwell(SM100)并不相同:SM12x 的张量核心编程模型更接近 Ampere 的 mma.sync,而非数据中心 Blackwell 的 tcgen05,因此为数据中心芯片编译的内核,在重新为 SM121 编译之前,无法在 GB10 上运行。

这个差距正是为何一个「仅针对 SM120/SM121 启用」的后端会成为新闻。一条明确为这些目标编译的 FlashInfer NVFP4 混合专家(MoE)路径,意味着 Nemotron 级别的 MoE 模型可以在 DGX Spark 上使用 FP4 张量核心,而非退回到较慢的通用路径。NVIDIA 论坛上的用户已花了数周时间要求官方提供 SM121 软件路线图;rc17 正是逐步补上的一块。

故事的 KV 缓存那一半

NVFP4 KV 缓存这一条是另一个杠杆。根据 NVIDIA 自家的工程文章,NVFP4 KV 缓存相较 FP8 可将缓存内存占用最多减少 50%,而在他们公布的基准测试中准确度损失低于 1%(例如在 Qwen3-480B-A35B 上:MMLU-PRO 77.4% 对比 FP8 的 78.1%,Ruler 64K 为 94.6% 对比 95.5%)。数值会在 attention 运算执行前先从 NVFP4 反量化为 FP8。

rc17 中的杠杆带来什么
FlashInfer NVFP4 MoE(SM120/SM121)真正能为 GB10 / RTX 50 编译的 FP4 专家内核
NVFP4 KV 缓存(trtllm-gen attention)KV 内存约为 FP8 的一半;有空间将 context 或 batch 加倍
qwen3 SM120/121 卡死修复移除 Qwen3 在消费级 Blackwell 上的硬性阻碍

在一张 128GB 统一内存的芯片上,把 KV 缓存字节减半并非微基准测试的炫技——它是长 context 会话是装得下还是会反复抖动之间的差别。NVIDIA 在其大规模数据中报告相同的 NVFP4 KV 缓存可使 context 长度与 batch 大小最多约加倍,并使首字延迟(TTFT)最多改善 3 倍,不过这些标题数字来自数据中心 Blackwell,而非实测的 GB10 运行。

实务备注

这是一个发布候选版本(rc17),而发布本身就标注了一个已知问题:DeepSeek V3.2 在长时间的 agg/disagg 性能测试中可能因非法内存访问而崩溃。如果你把 rc17 拉到 DGX Spark 上试 FP4 MoE 路径,请把它当作评估而非生产环境——锁定确切的 build、在信任 KV 缓存量化应用到你的工作负载之前先自行做准确度抽查,并注意随附的 flashinfer-python 本身也是发布候选版本(升至 0.6.12rc2)。NVFP4 KV 缓存也需要以正确配方量化过的模型(通过 Model Optimizer 的训练后或量化感知方式);它不是你能在任意 FP16 检查点上切换的运行期标志。

较少被考量的角度

这个低调的故事是:NVFP4 的支持正从「能在数据中心 Blackwell 上跑」往下迁移到「能为你办公室里那颗芯片编译」。多数已公布的 NVFP4 数字——50% 的 KV 节省、3 倍 TTFT、那些准确度表格——都是在 SM100 数据中心芯片上测量的,然而 SM12x 的指令集确实不同。所以对 DGX 拥有者而言有趣的未解问题,不是 NVFP4 在原理上是否有帮助,而是在重新编译到 SM121 之后,数据中心的好处究竟有多少能存活下来——在那里张量核心路径看起来更像 Ampere。rc17 给了内核;诚实的、以 GB10 测量的差值仍未交代。


Sources

请喝咖啡