Skip to content
AI-Daily-Builder

2026-06-06 次瀏覽

Gemma 4 多權杖預測登陸 llama.cpp:自推測解碼在本地推論進入主流

llama.cpp 於 2026 年 5 月合併了原生多權杖預測(MTP)推測解碼(PR #22673),回報在 Qwen3.6-27B 上以約 72% 的草稿接受率達成單串流生成約 2.4 倍加速,草稿頭從同一個 GGUF 載入並擁有自己的 KV-cache。2026 年 6 月 6 日,後續的 Gemma 4 MTP PR(#23398)被標記為可供審查,將此技術擴展到 Google 的 Gemma 4

推出了什麼

llama.cpp 現在原生支援多權杖預測(MTP)推測解碼。核心基礎設施落地於 PR #22673(“llama + spec: MTP Support”),於 2026 年 5 月 4 日開啟並於 2026 年 5 月 16 日合併。2026 年 6 月 6 日,後續的 Gemma 4 MTP 工作(PR #23398)被標記為可供審查,將同一套機制擴展到 Google 的 Gemma 4 家族。

對本地使用者而言,重點是單串流延遲。傳統的推測解碼透過執行一個獨立的小型草稿模型來猜測接下來的幾個權杖,再由大型模型一次驗證,從而加速生成。MTP 將這個想法折疊進模型成品本身:一個輕量級的預測頭在每次前向傳遞中提出數個權杖,因此你不必尋找、調整大小並對齊一個獨立的草稿模型,就能獲得推測解碼的加速。

來自合併的數字

在已合併的 Qwen3.6-27B 路徑上,PR #22673 回報使用 3 個草稿權杖時約 2.4 倍的牆鐘加速(83.8 秒對比 201 秒基準),接受率為 72.18%,而使用 2 個草稿權杖時約 2.2 倍,接受率為 82.58%。它也在 Qwen3.6-35BA3B MoE 變體上經過驗證。此設計從同一個 GGUF 檔案載入 MTP 頭,因此不需要額外分發任何東西,而且它保有自己的上下文與 KV-cache。

Gemma 4 PR 將此推向不同的血統。它在密集型 31B 模型上回報超過 2 倍,接受率視配置而定約在 43% 到 70% 之間,其中一個範例從約 40 tok/s 提升到約 100 tok/s。Q8 量化的執行落在約 1.74 倍到 1.97 倍。該 PR 涵蓋 31B 與 26B-A4B 變體,並排除較小的 E4B 與 E2B。

模型 / PR草稿權杖接受率加速
Qwen3.6-27B (PR #22673, merged)3~72%~2.4x
Qwen3.6-27B (PR #22673, merged)2~83%~2.2x
Gemma 4 dense 31B (PR #23398, in review)varies~43-70%over 2x
Gemma 4 31B Q8 (PR #23398, in review)variesvaries~1.74-1.97x

一個細微之處:Gemma 的做法不同

有一個值得了解的架構分支。Qwen 風格的路徑使用打包在同一份權重內的 MTP 頭。相比之下,Gemma 4 提供由 Google 訓練的獨立 “assistant” / drafter 模型(Gemma4AssistantForCausalLM 類別),對齊到 Gemma 4 自身的輸出分佈,並加上需要在載入器中自訂映射的新縮放張量。兩種方法追求相同的目標,即高接受率,讓驗證器很少拒絕,但管線與你抓取的檔案有所不同。一個獨立的 libllama MTP API(PR #18886)仍處於草稿狀態,因此即使伺服器路徑可用,其公開的 C API 尚未定案。

為何對本地裝置重要

接受率就是全部的關鍵,而且它取決於工作負載。可預測的文字,例如程式碼與結構化輸出,會在這些範圍的高端被接受;自由形式的散文接受度較低,實現的加速也隨之下降。PR 之外的社群回報,對於短而多樣的生成,聚集在較接近 1.7 倍到 1.9 倍,這對於互動式聊天而非批次程式碼補全才是誠實的預期。這個收益是真實的,但它是一次一個串流的延遲收益,而非繁忙的多使用者伺服器的吞吐量收益——在那種情況下連續批次處理已經讓 GPU 飽和。

實務者注記

如果你在本地執行單一使用者的編碼助手,這是目前最便宜的加速方式:拉取一個近期的 llama.cpp 建置,使用支援 MTP 的 GGUF(今天用 Qwen3.6,一旦 #23398 落地就用 Gemma 4),並從 2-3 個草稿權杖開始。把回報的接受率當作你真正的基準,而非行銷的倍數,並依你的提示調整草稿權杖數量;在低接受率的散文上使用過多草稿可能會抹去收益。在假設功能已啟用之前,先驗證你的建置確實暴露了 MTP 伺服器旗標,因為這個功能很新,且 C API 仍在變動中。

被低估的角度

大家都引用加速倍數,但策略性的轉變在於誰擁有草稿模型。有了像 Gemma 4 的 assistant 變體這樣分別訓練的 drafter,模型供應商便控制了接受品質,這可能悄悄成為一道護城河:對齊到確切輸出分佈的第一方 drafter,理應勝過任何由社群拼裝的通用小型模型。這把一項過去屬於社群修補空間的最佳化集中了起來,並為自我託管者帶來一個更隱微的問題,亦即供應商是否可能推出一個強大的基礎模型搭配一個刻意平庸的 drafter,並將快速路徑置於不同的授權或發布節奏之後。


Sources

請喝咖啡