arXiv 2605.16941·2026-06-06 — 次瀏覽

Roll Out and Roll Back：讓擴散式 LLM 撤回自己的錯誤，達成 6x 更快的解碼

Fanqin Zeng, Feng Hong, Geng Yu, Huangjie Zheng, Xiaofeng Cao, Ya Zhang, Bo Han, Yanfeng Wang, Jiangchao Yao

一篇新的 arXiv 論文提出 WINO，一種免訓練的擴散式語言模型解碼技巧：一次草擬大量 token，再驗證並重新遮蔽不可靠的部分。論文回報在 GSM8K 上去噪步數最多減少 6.1x，而準確率反而從 73.24% 上升到 75.82%，另有一個可選的微調變體能再進一步提升。

arxiv.org/abs/2605.16941 ↗

這篇論文做了什麼

擴散式大型語言模型（dLLM）產生文字的方式與大多數人熟知的自迴歸模型不同。它不是一個接一個地產生 token，而是從一個完全被遮蔽的序列開始，經過數輪「去噪」，並行地填入許多位置。它承諾的是速度：如果你能在每一步有把握地揭示大量 token，就能以比由左到右的模型少得多的步數完成。

問題在於作者所強調的一個不匹配。在訓練期間，dLLM 學會從隨機損壞的狀態重建 token，並沒有哪些 token 容易、哪些困難的概念。但快速推論想要的恰恰相反：先揭示有把握、容易的 token，把模稜兩可的留到後面。並行度推得太猛，模型就會押注於它後來會「後悔」的 token，使品質下降。太過保守，又會失去速度優勢。

這篇論文《Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers》（arXiv，2026 年 5 月 16 日提交，類別 cs.CL）提出了一種名為 WINO 的解碼方案，是 Wide-In, Narrow-Out 的縮寫。其構想就在名稱裡：在輸入端「放寬」，在單一步驟中積極草擬大量 token（即「roll out」），然後在輸出端「收窄」，將每個草稿對照完整的上下文進行驗證，並重新遮蔽那些看起來不可靠的部分（即「roll back」）。關鍵在於，這使並行生成變得可撤回——在某一步中押定的 token 並非永久，可在下一步被收回。基礎方法是免訓練的，因此能在既有的擴散模型上運行而無需任何重新訓練。第二個變體 WINO+ 透過額外訓練，把經過驗證的去噪序列重新折入模型權重，以鎖定這些增益。

為什麼重要

重點是你可以獲得積極並行解碼的速度，而不必以品質為代價。在 GSM8K 數學基準上，作者回報準確率從 73.24% 提升到 75.82%，同時將去噪步數削減 6.10x。經過訓練的 WINO+ 變體達到 76.58%，步數減少 6.83x。在 Flickr30K 圖說任務上，WINO+ 回報步數減少 16.22x，且圖說分數有所提升。

Setting	Benchmark	Accuracy/quality	Step reduction
WINO (training-free)	GSM8K	73.24% to 75.82%	6.10x
WINO+ (trained)	GSM8K	76.58%	6.83x
WINO+ (trained)	Flickr30K	improved CIDEr	16.22x

準確率不降反升才是有趣的部分。這暗示模型先前一直被無法撤回的早期押注所拖累：讓它收回糟糕的猜測不只更快，而且更正確。對這類模型而言，這把「速度」與「品質」重新定位為合作而非競爭的關係。

實務者註記

如果你正在評估擴散式 LLM 作為自迴歸服務的替代方案，WINO 的免訓練特性是實務上的切入點——它是解碼時的改動，而非模型替換，因此原則上可以疊加到你已在運行的 dLLM 上。步數削減（「函數評估次數」）在這些模型上是延遲與成本的乾淨代理指標，但要把回報的倍數視為與基準相關：數學應用題與圖像圖說的 token 難度分布非常不同，而你自己的工作負載可能落在兩者之間的任何位置。在相信一個 6x 的數字之前，先在你真實的提示組合上重新測量，並留意尾端延遲，因為驗證與重新遮蔽的迴圈會增加每步的額外開銷，只有在許多草稿存活時才划算。也要注意這些仍是擴散式 LLM，是一個比自迴歸 transformer 更小、更未經實戰考驗的生態系，因此工具鏈、量化與服務成熟度仍是實際的考量。

一個被低估的角度：「roll back」機制本質上是一種內建的自我驗證訊號，而這篇論文的大多數公開關注都集中在吞吐量上。但一個能在生成途中標記並收回自己低信心 token 的模型，也在對輸出產生一份免費、細粒度的信心軌跡。那份軌跡的用途可以遠遠超出速度——用於只對模型差點收回的 token 進行選擇性的人工審查、用於在高不確定性區段棄答，或作為下游訓練的獎勵訊號。效率這個切角，最終可能是可撤回解碼最不有趣的用途。