arXiv 2605.16941·2026-06-06 — 회 조회

Roll Out and Roll Back: 확산 LLM이 자신의 실수를 철회하게 만들어 6배 빠른 디코딩 달성

Fanqin Zeng, Feng Hong, Geng Yu, Huangjie Zheng, Xiaofeng Cao, Ya Zhang, Bo Han, Yanfeng Wang, Jiangchao Yao

새로운 arXiv 논문이 WINO를 제안한다. 이는 확산 언어 모델을 위한 학습이 필요 없는 디코딩 기법으로, 한 번에 많은 토큰을 초안 작성한 뒤 신뢰할 수 없는 것들을 검증하고 다시 마스킹한다. GSM8K에서 디노이징 단계를 최대 6.1배 줄이는 한편 정확도는 오히려 73.24%에서 75.82%로 상승했다고 보고하며, 선택적인 파인튜닝 변형은 더 나아간다.

arxiv.org/abs/2605.16941 ↗

이 논문이 하는 일

확산 대규모 언어 모델(dLLM)은 대부분의 사람들이 아는 자기회귀 모델과는 다른 방식으로 텍스트를 생성한다. 토큰을 하나씩 차례로 만드는 대신, 완전히 마스킹된 시퀀스에서 시작해 여러 라운드에 걸쳐 “디노이징”하며 많은 위치를 병렬로 채워 넣는다. 약속되는 것은 속도다. 한 단계마다 많은 토큰을 자신 있게 드러낼 수 있다면, 좌에서 우로 가는 모델보다 훨씬 적은 단계로 끝낼 수 있다.

문제는 저자들이 강조하는 불일치에 있다. 학습 중에 dLLM은 무작위로 손상된 상태에서 토큰을 복원하는 법을 배우지만, 어떤 토큰이 쉽고 어떤 토큰이 어려운지에 대한 개념은 없다. 그러나 빠른 추론이 원하는 것은 그 반대다. 자신 있고 쉬운 토큰을 먼저 드러내고 모호한 것은 나중으로 미룬다. 병렬성을 너무 강하게 밀어붙이면 모델은 나중에 “후회하는” 토큰에 베팅하게 되어 품질이 떨어진다. 너무 보수적이면 속도 이점을 잃는다.

이 논문 「Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers」(arXiv, 2026년 5월 16일 제출, 분류 cs.CL)는 WINO라는 디코딩 방식을 제안한다. 이는 Wide-In, Narrow-Out의 약자다. 아이디어는 이름 그대로다. 입력 쪽을 “넓게” 잡아 단일 단계에서 많은 토큰을 공격적으로 초안 작성하고(“roll out”), 그다음 출력 쪽을 “좁혀” 각 초안을 주변 문맥 전체와 대조해 검증하고 신뢰할 수 없어 보이는 것들을 다시 마스킹한다(“roll back”). 결정적으로, 이는 병렬 생성을 철회 가능하게 만든다 — 한 단계에서 확정된 토큰은 영구적이지 않으며 다음 단계에서 되돌릴 수 있다. 기본 방법은 학습이 필요 없으므로, 어떠한 재학습 없이도 기존 확산 모델 위에서 실행된다. 두 번째 변형인 WINO+는 추가 학습을 통해 검증된 디노이징 시퀀스를 모델 가중치에 다시 접어 넣어 그 이득을 고정한다.

왜 중요한가

핵심은 품질을 대가로 치르지 않고도 공격적인 병렬 디코딩의 속도를 얻을 수 있다는 것이다. GSM8K 수학 벤치마크에서 저자들은 정확도가 73.24%에서 75.82%로 향상되는 한편 디노이징 단계를 6.10배 줄였다고 보고한다. 학습된 WINO+ 변형은 76.58%에 도달하며 단계는 6.83배 감소한다. Flickr30K 캡션 생성 과제에서 WINO+는 단계 16.22배 감소를 보고하며 캡션 점수도 개선되었다.

Setting	Benchmark	Accuracy/quality	Step reduction
WINO (training-free)	GSM8K	73.24% to 75.82%	6.10x
WINO+ (trained)	GSM8K	76.58%	6.83x
WINO+ (trained)	Flickr30K	improved CIDEr	16.22x

정확도가 내려가는 것이 아니라 올라간다는 점이 흥미로운 부분이다. 이는 모델이 이전에는 철회할 수 없는 초기 확정에 발목 잡혀 있었음을 시사한다. 나쁜 추측을 되돌리게 하는 것은 더 빠를 뿐 아니라 더 정확하기도 하다. 이는 이 부류의 모델에 대해 “속도”와 “품질”을 경쟁이 아니라 협력하는 관계로 재정의한다.

실무자를 위한 참고

자기회귀 서빙의 대안으로 확산 LLM을 평가하고 있다면, WINO의 학습이 필요 없는 성질이 실무적 진입점이다 — 이는 모델 교체가 아니라 디코딩 시점의 변경이므로, 원칙적으로 이미 운영 중인 dLLM 위에 얹을 수 있다. 단계 수 감소(“함수 평가 횟수”)는 이러한 모델에서 지연과 비용의 깔끔한 대리 지표지만, 보고된 배수는 벤치마크에 특정한 것으로 다루어야 한다. 수학 서술형 문제와 이미지 캡션은 토큰 난이도 분포가 매우 다르며, 당신 자신의 워크로드는 그 사이 어디에든 떨어질 수 있다. 6배라는 숫자를 믿기 전에, 실제 프롬프트 구성에서 다시 측정하고 꼬리 지연을 주시하라. 검증과 재마스킹 루프는 단계마다 오버헤드를 더하며, 많은 초안이 살아남을 때에만 그 값을 한다. 또한 이들은 여전히 확산 LLM이며, 자기회귀 트랜스포머보다 더 작고 실전 검증이 덜 된 생태계이므로, 도구, 양자화, 서빙 성숙도는 여전히 현실적인 고려 사항이다.

덜 고려된 관점이 있다. “roll back” 메커니즘은 본질적으로 내장된 자기검증 신호이며, 이 논문에 대한 대중의 관심 대부분은 처리량에 관한 것이다. 그러나 생성 도중에 자신의 저신뢰 토큰을 표시하고 되돌릴 수 있는 모델은 출력 전반에 걸쳐 무료의 세밀한 신뢰 추적도 만들어 내고 있다. 그 추적은 속도를 훨씬 넘어 재활용될 수 있다 — 모델이 거의 되돌릴 뻔한 토큰만 선택적으로 사람이 검토하는 데, 높은 불확실성 구간에서 답변을 보류하는 데, 또는 하류 학습을 위한 보상 신호로. 효율성이라는 틀은 결국 철회 가능한 디코딩의 가장 흥미롭지 않은 용도가 될지도 모른다.