2026-05-24 — 次瀏覽
llama.cpp 合併原生 MTP 推測解碼 — Qwen3.6 單請求解碼提速約 2.16×,DGX Spark 受惠
PR #22673 為 llama.cpp 帶來原生多 token 預測(MTP)推測解碼(build b9180+)。在 GB10 DGX Spark 上,Qwen3.6-27B Q4_K_M 單請求從 13.1 升到 28.3 tok/s — 但在並發下反而退步。
家用與個人自架使用者期待已久的功能本月正式進入上游:原生多 token 預測(MTP)推測解碼透過 PR #22673(“llama + spec: MTP Support”,作者 am17an)於 2026-05-16 合併至 master,收錄於 build b9180 及之後。在 GB10 DGX Spark 上,它讓 Qwen3.6 的單請求解碼吞吐量約略翻倍 — 但有一個關鍵但書,會在高負載下翻轉它的價值。
MTP 推測解碼是什麼
推測解碼透過先廉價地「草擬」數個候選 token,再用一次前向傳遞驗證它們來加速生成。傳統做法需要一個獨立的小型 draft 模型並行運行 — 額外的記憶體、額外的設定,還有品質匹配的麻煩。
MTP 移除了第二個模型。 Qwen3.6 內建原生多 token 預測頭:模型本身就會預測數個未來 token。llama.cpp 新增的 --spec-type draft-mtp 模式直接拿這些內建頭當草稿來源,因此同一份權重同時負責草擬與驗證。不需要找 draft 模型、沒有不匹配風險,而且草稿品質更高,因為它們來自目標模型本身。
兩個可調參數控制積極程度:
--spec-draft-n-max— 每步草擬多少 token(下方實測中 5 是甜蜜點)--spec-draft-p-min— 草稿 token 被採納的最低接受機率
實測數據 — GB10 DGX Spark
NVIDIA 開發者論壇上一份社群實測(2026-05-15)在 DGX Spark 上跑 Qwen3.6-27B dense、Q4_K_M:
| 情境 | 無 MTP | 有 MTP(草擬 5) | 變化 |
|---|---|---|---|
| 單請求 | 13.1 tok/s | 28.3 tok/s | +2.16× |
| 4 個並發請求 | 41.5 tok/s | 29.9 tok/s | −28% |
單流的提升真實且巨大。但注意第二列:在四個並發請求下,MTP 反而拖累總吞吐量。這不是 bug — 而是推測解碼的根本權衡。
但書:延遲 vs 吞吐量
推測解碼是用閒置運算力換取更低延遲。當你一次只服務一個請求,GB10 的張量核心在解碼迴圈中大多閒置(在 Spark 的 273 GB/s LPDDR5X 上,解碼受記憶體頻寬限制),因此額外草擬 token 幾乎免費,於是得到 2× 加速。
在批次處理下則相反:並發請求已經吃滿運算力,因此草稿會搶佔週期,被拒絕 token 的浪費工作會拖累總吞吐量。這讓 MTP 成為單人互動式自架的殺手級功能 — 卻是多人服務機器的錯誤預設值。 如果你的 DGX Spark 是個人編碼/助理端點,就打開它;若是面向多位同事,就關掉。
跨硬體可複現
這個效果並非 Spark 專屬。一份在 RTX 3090 上的跨平台報告量到 Qwen3.6-27B 從 38 → 65 tok/s(1.71×),且無品質損失,並在 Qwen3.6-35B-A3B 上同樣確認。已啟用 MTP 的 GGUF 已上架 Hugging Face(例如 froggeric/Qwen3.6-27B-MTP-GGUF),所以你不必自行轉換權重 — 拉一個 MTP build、抓一個 MTP GGUF,加上 --spec-type draft-mtp 旗標即可。
配套進展:TensorRT-LLM v1.3.0rc15
在 Spark 生態的生產級推理這一側,NVIDIA 於 2026-05-21 發布 TensorRT-LLM v1.3.0rc15(專案維持約每週一個 rc — rc14 是 2026-05-07)。與 GB10(SM 12.1)相關的重點:
- Gemma4 支援文字、視覺、音訊與 chunked-prefill — Blackwell 推理的新多模態家族。
- 針對 SM120/121 的 INT4-AWQ 核心,直接涵蓋 Spark 級硬體。
- 擴展的 NVFP4 / MXFP4 MoE 後端(MegaMoE DeepGEMM、Nemotron-H 用的 CUTEDSL MoE、W4A8_MXFP4_FP8)以及 FP4/FP8 解碼核心索引優化。
兩條路線互補:llama.cpp MTP 是今天單人互動使用最省事的路徑,而 TensorRT-LLM 則是量化 MoE 與多模態服務性能在 Blackwell 上成熟之處。
重點整理
如果你把 DGX Spark 當作個人 LLM 端點,MTP 的合併是本月槓桿最高的更新:升一個 build 加一個旗標,就能在 Qwen3.6 上獲得約 2× 的互動加速,且不需要 draft 模型。只要記住它是單流優化 — 在共用機器上啟用前,先用你自己的並發水準實測一次。