2026-05-09
TensorRT-LLM v1.3.0rc14 — Qwen3.5 NVFP4 權重載入修復、Mamba-hybrid 前綴快取啟用
TRT-LLM 1.3.0rc14(5/7)修復 Qwen3.5 NVFP4 weight_scales 載入、啟用 Mamba-hybrid 前綴快取、加入 NVFP4 權重更新、DFlash 單模型推測解碼,並有一個專為 Spark 命名的 GEMM 性能 PR。
NVIDIA 於 2026 年 5 月 7 日 08:55 UTC 發布 TensorRT-LLM v1.3.0rc14。這是首個同時修復長期存在的 Qwen3.5 NVFP4 權重載入 bug、啟用 Mamba-hybrid 前綴快取,並加入 NVFP4 權重更新支援的 RC 版本——三個自 4 月以來阻擋 Spark 實際部署的問題一併解決。
釋出內容
| 領域 | PR | 內容 |
|---|---|---|
| Qwen3.5 NVFP4 | #13716 | checkpoint 載入時保留 weight_scales —— 修復 issue #12762 的「靜默 0 張量」回歸 |
| MoE 路由 | #13433 | 為 Qwen3.5 擴展 customMoeRouting |
| Mamba-hybrid | #12185 | 為 Qwen3.5 + Nemotron Super V3 hybrid 加入前綴快取 |
| NVFP4 權重 | #12320 | NVFP4 權重更新支援 |
| 推測解碼 | #12794 | DFlash 單模型推測解碼 |
| 推測解碼 | #13453 | Mamba-2 rollback replay(讓推測解碼在 hybrid 上實際可用) |
| GEMM | #11589 | GEMM-to-allreduce with registered buffers |
| Dense GEMM | #12074 | CuteDSL bf16 dense GEMMs |
| Spark 專屬 | #13160 | 「improve gemm perf for nemotron in spark」—— 直接為 GB10 命名 |
| Eagle3 | #13565 | H20 接受率閾值降低(暗示對小 GPU 主機的測量更精細) |
此版本共有 75 位貢獻者的提交。對 Spark 操作者而言,PR #13160 是頭條新聞 —— 這是此釋出系列中第一個標題出現「DGX Spark」的 PR,顯示 NVIDIA 正在主動為此平台做效能調優,而不只是順帶處理。
解鎖了什麼
Qwen3.5 NVFP4 進入生產就緒。 Issue #12762 自 4 月起一直開啟,使用者反映權重載入後輸出全為 0 張量。rc14 關閉了它。任何在 TRT-LLM 上跑 Qwen3.5-30B-A3B 的人在部署前都應拉取此容器。
Mamba-hybrid agentic 迴圈。 Nemotron Super V3 / Qwen3.5 hybrid SSM 的前綴快取意味著 agent 工作階段中的後續輪次不再需要付完整的 prefill 成本。對於多輪程式碼 agent 與長對話聊天機器人,cached 輪次的 TTFT 改善是數量級的。
Hybrid 推測解碼。 PR #13453 的 Mamba-2 rollback replay 是讓推測解碼在 hybrid 模型上實際安全的關鍵 —— 先前被拒絕的草稿可能讓 SSM 狀態留在錯位。有了 rollback replay,Qwen3.5 hybrid 上的推測解碼成為可行的加速槓桿。
行動項
- 拉取 rc14 容器:
docker pull nvcr.io/nvidia/tensorrt-llm:1.3.0rc14-py3 - 重建你的 Qwen3.5-30B-A3B NVFP4 checkpoint —— 用舊版有 bug 的程式碼路徑載入過的 checkpoint,可能已經把錯誤的 weight_scales 烘焙進去。
- 用
--enable_prefix_caching重新測試 Mamba-hybrid 模型。量化 cached 與冷啟動首輪的 TTFT 差距;該差距就是下游 agent 步驟的新延遲預算。 - 若你在用 Eagle3 推測解碼,依 #13565 的 H20 參考重新調整接受率閾值。