arXiv 2605.16941·2026-06-06 — 次浏览

Roll Out and Roll Back：让扩散式 LLM 撤回自己的错误，实现 6x 更快的解码

Fanqin Zeng, Feng Hong, Geng Yu, Huangjie Zheng, Xiaofeng Cao, Ya Zhang, Bo Han, Yanfeng Wang, Jiangchao Yao

一篇新的 arXiv 论文提出 WINO，一种免训练的扩散式语言模型解码技巧：一次草拟大量 token，再验证并重新遮蔽不可靠的部分。论文报告在 GSM8K 上去噪步数最多减少 6.1x，而准确率反而从 73.24% 上升到 75.82%，另有一个可选的微调变体能再进一步提升。

arxiv.org/abs/2605.16941 ↗

这篇论文做了什么

扩散式大型语言模型（dLLM）生成文本的方式与大多数人熟知的自回归模型不同。它不是一个接一个地生成 token，而是从一个完全被遮蔽的序列开始，经过数轮“去噪”，并行地填入许多位置。它承诺的是速度：如果你能在每一步有把握地揭示大量 token，就能以比从左到右的模型少得多的步数完成。

问题在于作者所强调的一个不匹配。在训练期间，dLLM 学会从随机损坏的状态重建 token，并没有哪些 token 容易、哪些困难的概念。但快速推理想要的恰恰相反：先揭示有把握、容易的 token，把模棱两可的留到后面。并行度推得太猛，模型就会押注于它后来会“后悔”的 token，使质量下降。太过保守，又会失去速度优势。

这篇论文《Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers》（arXiv，2026 年 5 月 16 日提交，类别 cs.CL）提出了一种名为 WINO 的解码方案，是 Wide-In, Narrow-Out 的缩写。其构想就在名称里：在输入端“放宽”，在单一步骤中积极草拟大量 token（即“roll out”），然后在输出端“收窄”，将每个草稿对照完整的上下文进行验证，并重新遮蔽那些看起来不可靠的部分（即“roll back”）。关键在于，这使并行生成变得可撤回——在某一步中押定的 token 并非永久，可在下一步被收回。基础方法是免训练的，因此能在既有的扩散模型上运行而无需任何重新训练。第二个变体 WINO+ 通过额外训练，把经过验证的去噪序列重新折入模型权重，以锁定这些增益。

为什么重要

重点是你可以获得积极并行解码的速度，而不必以质量为代价。在 GSM8K 数学基准上，作者报告准确率从 73.24% 提升到 75.82%，同时将去噪步数削减 6.10x。经过训练的 WINO+ 变体达到 76.58%，步数减少 6.83x。在 Flickr30K 图说任务上，WINO+ 报告步数减少 16.22x，且图说分数有所提升。

Setting	Benchmark	Accuracy/quality	Step reduction
WINO (training-free)	GSM8K	73.24% to 75.82%	6.10x
WINO+ (trained)	GSM8K	76.58%	6.83x
WINO+ (trained)	Flickr30K	improved CIDEr	16.22x

准确率不降反升才是有趣的部分。这暗示模型先前一直被无法撤回的早期押注所拖累：让它收回糟糕的猜测不只更快，而且更正确。对这类模型而言，这把“速度”与“质量”重新定位为合作而非竞争的关系。

实务者注记

如果你正在评估扩散式 LLM 作为自回归服务的替代方案，WINO 的免训练特性是实务上的切入点——它是解码时的改动，而非模型替换，因此原则上可以叠加到你已在运行的 dLLM 上。步数削减（“函数评估次数”）在这些模型上是延迟与成本的干净代理指标，但要把报告的倍数视为与基准相关：数学应用题与图像图说的 token 难度分布非常不同，而你自己的工作负载可能落在两者之间的任何位置。在相信一个 6x 的数字之前，先在你真实的提示组合上重新测量，并留意尾端延迟，因为验证与重新遮蔽的循环会增加每步的额外开销，只有在许多草稿存活时才划算。也要注意这些仍是扩散式 LLM，是一个比自回归 transformer 更小、更未经实战考验的生态系，因此工具链、量化与服务成熟度仍是实际的考量。

一个被低估的角度：“roll back”机制本质上是一种内建的自我验证信号，而这篇论文的大多数公开关注都集中在吞吐量上。但一个能在生成途中标记并收回自己低信心 token 的模型，也在对输出生成一份免费、细粒度的信心轨迹。那份轨迹的用途可以远远超出速度——用于只对模型差点收回的 token 进行选择性的人工审查、用于在高不确定性区段弃答，或作为下游训练的奖励信号。效率这个切角，最终可能是可撤回解码最不有趣的用途。