2026-06-08 — 次瀏覽

TensorRT-LLM rc17 為 SM121（DGX Spark）帶來 NVFP4 MoE 後端與 NVFP4 KV 快取

TensorRT-LLM v1.3.0rc17（6 月 2 日）新增一條僅針對 SM120/SM121 啟用的 FlashInfer NVFP4 MoE 後端，並在 trtllm-gen attention 中啟用 NVFP4 KV 快取，還修正了 qwen3 在 SM120/121 上的卡死——這是 DGX Spark 在消費級 Blackwell 上的具體支援。

釋出了什麼

NVIDIA 於 2026 年 6 月 2 日標記了 TensorRT-LLM v1.3.0rc17。在一份冗長的變更日誌中，埋著兩條對於在單台 Grace Blackwell 機器（而非資料中心機架）上跑大型模型的人特別重要的項目。

第一條是新功能：「Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron」（PR #13773）。第二條：「Enable NVFP4 KV cache support in trtllm-gen attention」（PR #12544）。還有一條 bug 修正悄悄地點明了受眾——「Fix qwen3 hang on SM120/121」（PR #14424）。

為什麼 SM121 是重點

SM120 與 SM121 是消費級 Blackwell 的運算能力（compute capability）。SM120 是 RTX 50 系列；SM121 是 DGX Spark 中的 GB10。它們與資料中心 Blackwell（SM100）並不相同：SM12x 的張量核心程式設計模型更接近 Ampere 的 mma.sync，而非資料中心 Blackwell 的 tcgen05，因此為資料中心晶片編譯的核心，在重新為 SM121 編譯之前，無法在 GB10 上執行。

這個落差正是為何一個「僅針對 SM120/SM121 啟用」的後端會成為新聞。一條明確為這些目標編譯的 FlashInfer NVFP4 混合專家（MoE）路徑，意味著 Nemotron 等級的 MoE 模型可以在 DGX Spark 上使用 FP4 張量核心，而非退回到較慢的通用路徑。NVIDIA 論壇上的使用者已花了數週時間要求官方提供 SM121 軟體路線圖；rc17 正是逐步補上的一塊。

故事的 KV 快取那一半

NVFP4 KV 快取這一條是另一個槓桿。根據 NVIDIA 自家的工程文章，NVFP4 KV 快取相較 FP8 可將快取記憶體佔用最多減少 50%，而在他們公布的基準測試中準確度損失低於 1%（例如在 Qwen3-480B-A35B 上：MMLU-PRO 77.4% 對比 FP8 的 78.1%，Ruler 64K 為 94.6% 對比 95.5%）。數值會在 attention 運算執行前先從 NVFP4 反量化為 FP8。

rc17 中的槓桿	帶來什麼
FlashInfer NVFP4 MoE（SM120/SM121）	真正能為 GB10 / RTX 50 編譯的 FP4 專家核心
NVFP4 KV 快取（trtllm-gen attention）	KV 記憶體約為 FP8 的一半；有空間將 context 或 batch 加倍
qwen3 SM120/121 卡死修正	移除 Qwen3 在消費級 Blackwell 上的硬性阻礙

在一張 128GB 統一記憶體的晶片上，把 KV 快取位元組減半並非微基準測試的炫技——它是長 context 工作階段是裝得下還是會反覆抖動之間的差別。NVIDIA 在其大規模數據中回報相同的 NVFP4 KV 快取可使 context 長度與 batch 大小最多約加倍，並使首字延遲（TTFT）最多改善 3 倍，不過這些標題數字來自資料中心 Blackwell，而非實測的 GB10 執行。

實務備註

這是一個釋出候選版本（rc17），而釋出本身就標註了一個已知問題：DeepSeek V3.2 在長時間的 agg/disagg 效能測試中可能因非法記憶體存取而崩潰。如果你把 rc17 拉到 DGX Spark 上試 FP4 MoE 路徑，請把它當作評估而非正式環境——釘住確切的 build、在信任 KV 快取量化套用到你的工作負載之前先自行做準確度抽查，並注意隨附的 flashinfer-python 本身也是釋出候選版本（升至 0.6.12rc2）。NVFP4 KV 快取也需要以正確配方量化過的模型（透過 Model Optimizer 的訓練後或量化感知方式）；它不是你能在任意 FP16 檢查點上切換的執行期旗標。

較少被考量的角度

這個低調的故事是：NVFP4 的支援正從「能在資料中心 Blackwell 上跑」往下遷移到「能為你辦公室裡那顆晶片編譯」。多數已公布的 NVFP4 數字——50% 的 KV 節省、3 倍 TTFT、那些準確度表格——都是在 SM100 資料中心晶片上量測的，然而 SM12x 的指令集確實不同。所以對 DGX 擁有者而言有趣的未解問題，不是 NVFP4 在原理上是否有幫助，而是在重新編譯到 SM121 之後，資料中心的好處究竟有多少能存活下來——在那裡張量核心路徑看起來更像 Ampere。rc17 給了核心；誠實的、以 GB10 量測的差值仍未交代。