Skip to content
AI-Daily-Builder

arXiv 2605.16941·2026-06-06 次瀏覽

Roll Out and Roll Back:讓擴散式 LLM 撤回自己的錯誤,達成 6x 更快的解碼

Fanqin Zeng, Feng Hong, Geng Yu, Huangjie Zheng, Xiaofeng Cao, Ya Zhang, Bo Han, Yanfeng Wang, Jiangchao Yao

一篇新的 arXiv 論文提出 WINO,一種免訓練的擴散式語言模型解碼技巧:一次草擬大量 token,再驗證並重新遮蔽不可靠的部分。論文回報在 GSM8K 上去噪步數最多減少 6.1x,而準確率反而從 73.24% 上升到 75.82%,另有一個可選的微調變體能再進一步提升。

arxiv.org/abs/2605.16941 ↗


這篇論文做了什麼

擴散式大型語言模型(dLLM)產生文字的方式與大多數人熟知的自迴歸模型不同。它不是一個接一個地產生 token,而是從一個完全被遮蔽的序列開始,經過數輪「去噪」,並行地填入許多位置。它承諾的是速度:如果你能在每一步有把握地揭示大量 token,就能以比由左到右的模型少得多的步數完成。

問題在於作者所強調的一個不匹配。在訓練期間,dLLM 學會從隨機損壞的狀態重建 token,並沒有哪些 token 容易、哪些困難的概念。但快速推論想要的恰恰相反:先揭示有把握、容易的 token,把模稜兩可的留到後面。並行度推得太猛,模型就會押注於它後來會「後悔」的 token,使品質下降。太過保守,又會失去速度優勢。

這篇論文《Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers》(arXiv,2026 年 5 月 16 日提交,類別 cs.CL)提出了一種名為 WINO 的解碼方案,是 Wide-In, Narrow-Out 的縮寫。其構想就在名稱裡:在輸入端「放寬」,在單一步驟中積極草擬大量 token(即「roll out」),然後在輸出端「收窄」,將每個草稿對照完整的上下文進行驗證,並重新遮蔽那些看起來不可靠的部分(即「roll back」)。關鍵在於,這使並行生成變得可撤回——在某一步中押定的 token 並非永久,可在下一步被收回。基礎方法是免訓練的,因此能在既有的擴散模型上運行而無需任何重新訓練。第二個變體 WINO+ 透過額外訓練,把經過驗證的去噪序列重新折入模型權重,以鎖定這些增益。

為什麼重要

重點是你可以獲得積極並行解碼的速度,而不必以品質為代價。在 GSM8K 數學基準上,作者回報準確率從 73.24% 提升到 75.82%,同時將去噪步數削減 6.10x。經過訓練的 WINO+ 變體達到 76.58%,步數減少 6.83x。在 Flickr30K 圖說任務上,WINO+ 回報步數減少 16.22x,且圖說分數有所提升。

SettingBenchmarkAccuracy/qualityStep reduction
WINO (training-free)GSM8K73.24% to 75.82%6.10x
WINO+ (trained)GSM8K76.58%6.83x
WINO+ (trained)Flickr30Kimproved CIDEr16.22x

準確率不降反升才是有趣的部分。這暗示模型先前一直被無法撤回的早期押注所拖累:讓它收回糟糕的猜測不只更快,而且更正確。對這類模型而言,這把「速度」與「品質」重新定位為合作而非競爭的關係。

實務者註記

如果你正在評估擴散式 LLM 作為自迴歸服務的替代方案,WINO 的免訓練特性是實務上的切入點——它是解碼時的改動,而非模型替換,因此原則上可以疊加到你已在運行的 dLLM 上。步數削減(「函數評估次數」)在這些模型上是延遲與成本的乾淨代理指標,但要把回報的倍數視為與基準相關:數學應用題與圖像圖說的 token 難度分布非常不同,而你自己的工作負載可能落在兩者之間的任何位置。在相信一個 6x 的數字之前,先在你真實的提示組合上重新測量,並留意尾端延遲,因為驗證與重新遮蔽的迴圈會增加每步的額外開銷,只有在許多草稿存活時才划算。也要注意這些仍是擴散式 LLM,是一個比自迴歸 transformer 更小、更未經實戰考驗的生態系,因此工具鏈、量化與服務成熟度仍是實際的考量。

一個被低估的角度:「roll back」機制本質上是一種內建的自我驗證訊號,而這篇論文的大多數公開關注都集中在吞吐量上。但一個能在生成途中標記並收回自己低信心 token 的模型,也在對輸出產生一份免費、細粒度的信心軌跡。那份軌跡的用途可以遠遠超出速度——用於只對模型差點收回的 token 進行選擇性的人工審查、用於在高不確定性區段棄答,或作為下游訓練的獎勵訊號。效率這個切角,最終可能是可撤回解碼最不有趣的用途。

請喝咖啡