2026-06-08 — 次瀏覽
TensorRT-LLM rc17 為 SM121(DGX Spark)帶來 NVFP4 MoE 後端與 NVFP4 KV 快取
TensorRT-LLM v1.3.0rc17(6 月 2 日)新增一條僅針對 SM120/SM121 啟用的 FlashInfer NVFP4 MoE 後端,並在 trtllm-gen attention 中啟用 NVFP4 KV 快取,還修正了 qwen3 在 SM120/121 上的卡死——這是 DGX Spark 在消費級 Blackwell 上的具體支援。
釋出了什麼
NVIDIA 於 2026 年 6 月 2 日標記了 TensorRT-LLM v1.3.0rc17。在一份冗長的變更日誌中,埋著兩條對於在單台 Grace Blackwell 機器(而非資料中心機架)上跑大型模型的人特別重要的項目。
第一條是新功能:「Add FlashInfer NVFP4 MoE backend (SM120/SM121) for Nemotron」(PR #13773)。第二條:「Enable NVFP4 KV cache support in trtllm-gen attention」(PR #12544)。還有一條 bug 修正悄悄地點明了受眾——「Fix qwen3 hang on SM120/121」(PR #14424)。
為什麼 SM121 是重點
SM120 與 SM121 是消費級 Blackwell 的運算能力(compute capability)。SM120 是 RTX 50 系列;SM121 是 DGX Spark 中的 GB10。它們與資料中心 Blackwell(SM100)並不相同:SM12x 的張量核心程式設計模型更接近 Ampere 的 mma.sync,而非資料中心 Blackwell 的 tcgen05,因此為資料中心晶片編譯的核心,在重新為 SM121 編譯之前,無法在 GB10 上執行。
這個落差正是為何一個「僅針對 SM120/SM121 啟用」的後端會成為新聞。一條明確為這些目標編譯的 FlashInfer NVFP4 混合專家(MoE)路徑,意味著 Nemotron 等級的 MoE 模型可以在 DGX Spark 上使用 FP4 張量核心,而非退回到較慢的通用路徑。NVIDIA 論壇上的使用者已花了數週時間要求官方提供 SM121 軟體路線圖;rc17 正是逐步補上的一塊。
故事的 KV 快取那一半
NVFP4 KV 快取這一條是另一個槓桿。根據 NVIDIA 自家的工程文章,NVFP4 KV 快取相較 FP8 可將快取記憶體佔用最多減少 50%,而在他們公布的基準測試中準確度損失低於 1%(例如在 Qwen3-480B-A35B 上:MMLU-PRO 77.4% 對比 FP8 的 78.1%,Ruler 64K 為 94.6% 對比 95.5%)。數值會在 attention 運算執行前先從 NVFP4 反量化為 FP8。
| rc17 中的槓桿 | 帶來什麼 |
|---|---|
| FlashInfer NVFP4 MoE(SM120/SM121) | 真正能為 GB10 / RTX 50 編譯的 FP4 專家核心 |
| NVFP4 KV 快取(trtllm-gen attention) | KV 記憶體約為 FP8 的一半;有空間將 context 或 batch 加倍 |
| qwen3 SM120/121 卡死修正 | 移除 Qwen3 在消費級 Blackwell 上的硬性阻礙 |
在一張 128GB 統一記憶體的晶片上,把 KV 快取位元組減半並非微基準測試的炫技——它是長 context 工作階段是裝得下還是會反覆抖動之間的差別。NVIDIA 在其大規模數據中回報相同的 NVFP4 KV 快取可使 context 長度與 batch 大小最多約加倍,並使首字延遲(TTFT)最多改善 3 倍,不過這些標題數字來自資料中心 Blackwell,而非實測的 GB10 執行。
實務備註
這是一個釋出候選版本(rc17),而釋出本身就標註了一個已知問題:DeepSeek V3.2 在長時間的 agg/disagg 效能測試中可能因非法記憶體存取而崩潰。如果你把 rc17 拉到 DGX Spark 上試 FP4 MoE 路徑,請把它當作評估而非正式環境——釘住確切的 build、在信任 KV 快取量化套用到你的工作負載之前先自行做準確度抽查,並注意隨附的 flashinfer-python 本身也是釋出候選版本(升至 0.6.12rc2)。NVFP4 KV 快取也需要以正確配方量化過的模型(透過 Model Optimizer 的訓練後或量化感知方式);它不是你能在任意 FP16 檢查點上切換的執行期旗標。
較少被考量的角度
這個低調的故事是:NVFP4 的支援正從「能在資料中心 Blackwell 上跑」往下遷移到「能為你辦公室裡那顆晶片編譯」。多數已公布的 NVFP4 數字——50% 的 KV 節省、3 倍 TTFT、那些準確度表格——都是在 SM100 資料中心晶片上量測的,然而 SM12x 的指令集確實不同。所以對 DGX 擁有者而言有趣的未解問題,不是 NVFP4 在原理上是否有幫助,而是在重新編譯到 SM121 之後,資料中心的好處究竟有多少能存活下來——在那裡張量核心路徑看起來更像 Ampere。rc17 給了核心;誠實的、以 GB10 量測的差值仍未交代。