arXiv 2604.16529 · 2026-04-16

에이전트 코딩을 위한 test-time compute 확장

Joongwon Kim, Wannan Yang, Kelvin Niu

장기 horizon 코딩 에이전트의 test-time scaling은 "샘플링 문제"가 아니라 "표현 문제"라고 주장합니다. Claude Opus 4.5는 SWE-Bench Verified에서 70.9%에서 77.6%로 상승했습니다.

arxiv.org/abs/2604.16529 ↗

이 논문은 에이전트 코딩의 test-time compute(TTC)를 샘플링 문제가 아닌 표현 문제로 재정의합니다. 각 rollout을 구조화된 요약(hypotheses, progress, failure modes)으로 변환하고, 여러 rollout은 Recursive Tournament Voting(병렬)과 Parallel-Distill-Refine(순차)로 종합합니다.

요약에 보고된 수치는 이렇습니다. mini-SWE-agent에서 Claude Opus 4.5가 SWE-Bench Verified에서 70.9% → 77.6%, Terminal-Bench v2.0에서 46.9% → 59.1%로 상승했습니다.

실전 노트(개인적인)

“compute의 단위로서의 구조화 요약”이 제가 실제로 채택할 부분입니다. 대부분의 TTC 레시피는 “N개 샘플을 뽑은 뒤 투표”이지만, 이 논문은 과거 trajectory를 압축해 후속 rollout이 이미 탐색된 기반 위에 서도록 만드는 방식을 형식화했습니다. 다중 rollout 에이전트 harness를 운영한다면, 원시 transcript를 구조화된 per-rollout 요약으로 바꾼 뒤 투표하게 만드는 것은 작업량이 작지만 측정 가능한 이득이 있는 업그레이드입니다.

Recursive Tournament Voting은 더 엔지니어링적이고 신중한 구현이 필요하지만, 구조화 요약이라는 이 중간 형식은 하루 안에 운영에 올릴 수 있습니다.