2026-06-08 — 次浏览

TensorRT-LLM rc17 为 SM121（DGX Spark）带来 NVFP4 MoE 后端与 NVFP4 KV 缓存

TensorRT-LLM v1.3.0rc17（6 月 2 日）新增一条仅针对 SM120/SM121 启用的 FlashInfer NVFP4 MoE 后端，并在 trtllm-gen attention 中启用 NVFP4 KV 缓存，还修复了 qwen3 在 SM120/121 上的卡死——这是 DGX Spark 在消费级 Blackwell 上的具体支持。

发布了什么

NVIDIA 于 2026 年 6 月 2 日标记了 TensorRT-LLM v1.3.0rc17。在一份冗长的变更日志中，埋着两条对于在单台 Grace Blackwell 机器（而非数据中心机架）上跑大型模型的人特别重要的条目。

第一条是新功能：「Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron」（PR #13773）。第二条：「Enable NVFP4 KV cache support in trtllm-gen attention」（PR #12544）。还有一条 bug 修复悄悄点明了受众——「Fix qwen3 hang on SM120/121」（PR #14424）。

为什么 SM121 是重点

SM120 与 SM121 是消费级 Blackwell 的计算能力（compute capability）。SM120 是 RTX 50 系列；SM121 是 DGX Spark 中的 GB10。它们与数据中心 Blackwell（SM100）并不相同：SM12x 的张量核心编程模型更接近 Ampere 的 mma.sync，而非数据中心 Blackwell 的 tcgen05，因此为数据中心芯片编译的内核，在重新为 SM121 编译之前，无法在 GB10 上运行。

这个差距正是为何一个「仅针对 SM120/SM121 启用」的后端会成为新闻。一条明确为这些目标编译的 FlashInfer NVFP4 混合专家（MoE）路径，意味着 Nemotron 级别的 MoE 模型可以在 DGX Spark 上使用 FP4 张量核心，而非退回到较慢的通用路径。NVIDIA 论坛上的用户已花了数周时间要求官方提供 SM121 软件路线图；rc17 正是逐步补上的一块。

故事的 KV 缓存那一半

NVFP4 KV 缓存这一条是另一个杠杆。根据 NVIDIA 自家的工程文章，NVFP4 KV 缓存相较 FP8 可将缓存内存占用最多减少 50%，而在他们公布的基准测试中准确度损失低于 1%（例如在 Qwen3-480B-A35B 上：MMLU-PRO 77.4% 对比 FP8 的 78.1%，Ruler 64K 为 94.6% 对比 95.5%）。数值会在 attention 运算执行前先从 NVFP4 反量化为 FP8。

rc17 中的杠杆	带来什么
FlashInfer NVFP4 MoE（SM120/SM121）	真正能为 GB10 / RTX 50 编译的 FP4 专家内核
NVFP4 KV 缓存（trtllm-gen attention）	KV 内存约为 FP8 的一半；有空间将 context 或 batch 加倍
qwen3 SM120/121 卡死修复	移除 Qwen3 在消费级 Blackwell 上的硬性阻碍

在一张 128GB 统一内存的芯片上，把 KV 缓存字节减半并非微基准测试的炫技——它是长 context 会话是装得下还是会反复抖动之间的差别。NVIDIA 在其大规模数据中报告相同的 NVFP4 KV 缓存可使 context 长度与 batch 大小最多约加倍，并使首字延迟（TTFT）最多改善 3 倍，不过这些标题数字来自数据中心 Blackwell，而非实测的 GB10 运行。

实务备注

这是一个发布候选版本（rc17），而发布本身就标注了一个已知问题：DeepSeek V3.2 在长时间的 agg/disagg 性能测试中可能因非法内存访问而崩溃。如果你把 rc17 拉到 DGX Spark 上试 FP4 MoE 路径，请把它当作评估而非生产环境——锁定确切的 build、在信任 KV 缓存量化应用到你的工作负载之前先自行做准确度抽查，并注意随附的 flashinfer-python 本身也是发布候选版本（升至 0.6.12rc2）。NVFP4 KV 缓存也需要以正确配方量化过的模型（通过 Model Optimizer 的训练后或量化感知方式）；它不是你能在任意 FP16 检查点上切换的运行期标志。

较少被考量的角度

这个低调的故事是：NVFP4 的支持正从「能在数据中心 Blackwell 上跑」往下迁移到「能为你办公室里那颗芯片编译」。多数已公布的 NVFP4 数字——50% 的 KV 节省、3 倍 TTFT、那些准确度表格——都是在 SM100 数据中心芯片上测量的，然而 SM12x 的指令集确实不同。所以对 DGX 拥有者而言有趣的未解问题，不是 NVFP4 在原理上是否有帮助，而是在重新编译到 SM121 之后，数据中心的好处究竟有多少能存活下来——在那里张量核心路径看起来更像 Ampere。rc17 给了内核；诚实的、以 GB10 测量的差值仍未交代。