Builder Daily

2026-05-09

TensorRT-LLM v1.3.0rc14 — Qwen3.5 NVFP4 權重載入修復、Mamba-hybrid 前綴快取啟用

TRT-LLM 1.3.0rc14(5/7)修復 Qwen3.5 NVFP4 weight_scales 載入、啟用 Mamba-hybrid 前綴快取、加入 NVFP4 權重更新、DFlash 單模型推測解碼,並有一個專為 Spark 命名的 GEMM 性能 PR。

NVIDIA 於 2026 年 5 月 7 日 08:55 UTC 發布 TensorRT-LLM v1.3.0rc14。這是首個同時修復長期存在的 Qwen3.5 NVFP4 權重載入 bug、啟用 Mamba-hybrid 前綴快取,並加入 NVFP4 權重更新支援的 RC 版本——三個自 4 月以來阻擋 Spark 實際部署的問題一併解決。

釋出內容

領域PR內容
Qwen3.5 NVFP4#13716checkpoint 載入時保留 weight_scales —— 修復 issue #12762 的「靜默 0 張量」回歸
MoE 路由#13433為 Qwen3.5 擴展 customMoeRouting
Mamba-hybrid#12185為 Qwen3.5 + Nemotron Super V3 hybrid 加入前綴快取
NVFP4 權重#12320NVFP4 權重更新支援
推測解碼#12794DFlash 單模型推測解碼
推測解碼#13453Mamba-2 rollback replay(讓推測解碼在 hybrid 上實際可用)
GEMM#11589GEMM-to-allreduce with registered buffers
Dense GEMM#12074CuteDSL bf16 dense GEMMs
Spark 專屬#13160「improve gemm perf for nemotron in spark」—— 直接為 GB10 命名
Eagle3#13565H20 接受率閾值降低(暗示對小 GPU 主機的測量更精細)

此版本共有 75 位貢獻者的提交。對 Spark 操作者而言,PR #13160 是頭條新聞 —— 這是此釋出系列中第一個標題出現「DGX Spark」的 PR,顯示 NVIDIA 正在主動為此平台做效能調優,而不只是順帶處理。

解鎖了什麼

Qwen3.5 NVFP4 進入生產就緒。 Issue #12762 自 4 月起一直開啟,使用者反映權重載入後輸出全為 0 張量。rc14 關閉了它。任何在 TRT-LLM 上跑 Qwen3.5-30B-A3B 的人在部署前都應拉取此容器。

Mamba-hybrid agentic 迴圈。 Nemotron Super V3 / Qwen3.5 hybrid SSM 的前綴快取意味著 agent 工作階段中的後續輪次不再需要付完整的 prefill 成本。對於多輪程式碼 agent 與長對話聊天機器人,cached 輪次的 TTFT 改善是數量級的。

Hybrid 推測解碼。 PR #13453 的 Mamba-2 rollback replay 是讓推測解碼在 hybrid 模型上實際安全的關鍵 —— 先前被拒絕的草稿可能讓 SSM 狀態留在錯位。有了 rollback replay,Qwen3.5 hybrid 上的推測解碼成為可行的加速槓桿。

行動項

  1. 拉取 rc14 容器:docker pull nvcr.io/nvidia/tensorrt-llm:1.3.0rc14-py3
  2. 重建你的 Qwen3.5-30B-A3B NVFP4 checkpoint —— 用舊版有 bug 的程式碼路徑載入過的 checkpoint,可能已經把錯誤的 weight_scales 烘焙進去。
  3. --enable_prefix_caching 重新測試 Mamba-hybrid 模型。量化 cached 與冷啟動首輪的 TTFT 差距;該差距就是下游 agent 步驟的新延遲預算。
  4. 若你在用 Eagle3 推測解碼,依 #13565 的 H20 參考重新調整接受率閾值。

Sources

請喝咖啡