2026-05-09

TensorRT-LLM v1.3.0rc14 — Qwen3.5 NVFP4 權重載入修復、Mamba-hybrid 前綴快取啟用

TRT-LLM 1.3.0rc14（5/7）修復 Qwen3.5 NVFP4 weight_scales 載入、啟用 Mamba-hybrid 前綴快取、加入 NVFP4 權重更新、DFlash 單模型推測解碼，並有一個專為 Spark 命名的 GEMM 性能 PR。

NVIDIA 於 2026 年 5 月 7 日 08:55 UTC 發布 TensorRT-LLM v1.3.0rc14。這是首個同時修復長期存在的 Qwen3.5 NVFP4 權重載入 bug、啟用 Mamba-hybrid 前綴快取，並加入 NVFP4 權重更新支援的 RC 版本——三個自 4 月以來阻擋 Spark 實際部署的問題一併解決。

釋出內容

領域	PR	內容
Qwen3.5 NVFP4	#13716	checkpoint 載入時保留 `weight_scales` —— 修復 issue #12762 的「靜默 0 張量」回歸
MoE 路由	#13433	為 Qwen3.5 擴展 `customMoeRouting`
Mamba-hybrid	#12185	為 Qwen3.5 + Nemotron Super V3 hybrid 加入前綴快取
NVFP4 權重	#12320	NVFP4 權重更新支援
推測解碼	#12794	DFlash 單模型推測解碼
推測解碼	#13453	Mamba-2 rollback replay（讓推測解碼在 hybrid 上實際可用）
GEMM	#11589	GEMM-to-allreduce with registered buffers
Dense GEMM	#12074	CuteDSL bf16 dense GEMMs
Spark 專屬	#13160	「improve gemm perf for nemotron in spark」—— 直接為 GB10 命名
Eagle3	#13565	H20 接受率閾值降低（暗示對小 GPU 主機的測量更精細）

此版本共有 75 位貢獻者的提交。對 Spark 操作者而言，PR #13160 是頭條新聞 —— 這是此釋出系列中第一個標題出現「DGX Spark」的 PR，顯示 NVIDIA 正在主動為此平台做效能調優，而不只是順帶處理。

解鎖了什麼

Qwen3.5 NVFP4 進入生產就緒。 Issue #12762 自 4 月起一直開啟，使用者反映權重載入後輸出全為 0 張量。rc14 關閉了它。任何在 TRT-LLM 上跑 Qwen3.5-30B-A3B 的人在部署前都應拉取此容器。

Mamba-hybrid agentic 迴圈。 Nemotron Super V3 / Qwen3.5 hybrid SSM 的前綴快取意味著 agent 工作階段中的後續輪次不再需要付完整的 prefill 成本。對於多輪程式碼 agent 與長對話聊天機器人，cached 輪次的 TTFT 改善是數量級的。

Hybrid 推測解碼。 PR #13453 的 Mamba-2 rollback replay 是讓推測解碼在 hybrid 模型上實際安全的關鍵 —— 先前被拒絕的草稿可能讓 SSM 狀態留在錯位。有了 rollback replay，Qwen3.5 hybrid 上的推測解碼成為可行的加速槓桿。

行動項

拉取 rc14 容器：docker pull nvcr.io/nvidia/tensorrt-llm:1.3.0rc14-py3
重建你的 Qwen3.5-30B-A3B NVFP4 checkpoint —— 用舊版有 bug 的程式碼路徑載入過的 checkpoint，可能已經把錯誤的 weight_scales 烘焙進去。
用 --enable_prefix_caching 重新測試 Mamba-hybrid 模型。量化 cached 與冷啟動首輪的 TTFT 差距；該差距就是下游 agent 步驟的新延遲預算。
若你在用 Eagle3 推測解碼，依 #13565 的 H20 參考重新調整接受率閾值。

TensorRT-LLM v1.3.0rc14 — Qwen3.5 NVFP4 權重載入修復、Mamba-hybrid 前綴快取啟用

釋出內容

解鎖了什麼

行動項

Sources