Skip to content
AI-Daily-Builder

arXiv 2605.16941·2026-06-06 次浏览

Roll Out and Roll Back:让扩散式 LLM 撤回自己的错误,实现 6x 更快的解码

Fanqin Zeng, Feng Hong, Geng Yu, Huangjie Zheng, Xiaofeng Cao, Ya Zhang, Bo Han, Yanfeng Wang, Jiangchao Yao

一篇新的 arXiv 论文提出 WINO,一种免训练的扩散式语言模型解码技巧:一次草拟大量 token,再验证并重新遮蔽不可靠的部分。论文报告在 GSM8K 上去噪步数最多减少 6.1x,而准确率反而从 73.24% 上升到 75.82%,另有一个可选的微调变体能再进一步提升。

arxiv.org/abs/2605.16941 ↗


这篇论文做了什么

扩散式大型语言模型(dLLM)生成文本的方式与大多数人熟知的自回归模型不同。它不是一个接一个地生成 token,而是从一个完全被遮蔽的序列开始,经过数轮“去噪”,并行地填入许多位置。它承诺的是速度:如果你能在每一步有把握地揭示大量 token,就能以比从左到右的模型少得多的步数完成。

问题在于作者所强调的一个不匹配。在训练期间,dLLM 学会从随机损坏的状态重建 token,并没有哪些 token 容易、哪些困难的概念。但快速推理想要的恰恰相反:先揭示有把握、容易的 token,把模棱两可的留到后面。并行度推得太猛,模型就会押注于它后来会“后悔”的 token,使质量下降。太过保守,又会失去速度优势。

这篇论文《Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers》(arXiv,2026 年 5 月 16 日提交,类别 cs.CL)提出了一种名为 WINO 的解码方案,是 Wide-In, Narrow-Out 的缩写。其构想就在名称里:在输入端“放宽”,在单一步骤中积极草拟大量 token(即“roll out”),然后在输出端“收窄”,将每个草稿对照完整的上下文进行验证,并重新遮蔽那些看起来不可靠的部分(即“roll back”)。关键在于,这使并行生成变得可撤回——在某一步中押定的 token 并非永久,可在下一步被收回。基础方法是免训练的,因此能在既有的扩散模型上运行而无需任何重新训练。第二个变体 WINO+ 通过额外训练,把经过验证的去噪序列重新折入模型权重,以锁定这些增益。

为什么重要

重点是你可以获得积极并行解码的速度,而不必以质量为代价。在 GSM8K 数学基准上,作者报告准确率从 73.24% 提升到 75.82%,同时将去噪步数削减 6.10x。经过训练的 WINO+ 变体达到 76.58%,步数减少 6.83x。在 Flickr30K 图说任务上,WINO+ 报告步数减少 16.22x,且图说分数有所提升。

SettingBenchmarkAccuracy/qualityStep reduction
WINO (training-free)GSM8K73.24% to 75.82%6.10x
WINO+ (trained)GSM8K76.58%6.83x
WINO+ (trained)Flickr30Kimproved CIDEr16.22x

准确率不降反升才是有趣的部分。这暗示模型先前一直被无法撤回的早期押注所拖累:让它收回糟糕的猜测不只更快,而且更正确。对这类模型而言,这把“速度”与“质量”重新定位为合作而非竞争的关系。

实务者注记

如果你正在评估扩散式 LLM 作为自回归服务的替代方案,WINO 的免训练特性是实务上的切入点——它是解码时的改动,而非模型替换,因此原则上可以叠加到你已在运行的 dLLM 上。步数削减(“函数评估次数”)在这些模型上是延迟与成本的干净代理指标,但要把报告的倍数视为与基准相关:数学应用题与图像图说的 token 难度分布非常不同,而你自己的工作负载可能落在两者之间的任何位置。在相信一个 6x 的数字之前,先在你真实的提示组合上重新测量,并留意尾端延迟,因为验证与重新遮蔽的循环会增加每步的额外开销,只有在许多草稿存活时才划算。也要注意这些仍是扩散式 LLM,是一个比自回归 transformer 更小、更未经实战考验的生态系,因此工具链、量化与服务成熟度仍是实际的考量。

一个被低估的角度:“roll back”机制本质上是一种内建的自我验证信号,而这篇论文的大多数公开关注都集中在吞吐量上。但一个能在生成途中标记并收回自己低信心 token 的模型,也在对输出生成一份免费、细粒度的信心轨迹。那份轨迹的用途可以远远超出速度——用于只对模型差点收回的 token 进行选择性的人工审查、用于在高不确定性区段弃答,或作为下游训练的奖励信号。效率这个切角,最终可能是可撤回解码最不有趣的用途。

请喝咖啡