arXiv 2604.16529 · 2026-04-16
エージェンティックコーディングのための test-time compute スケーリング
Joongwon Kim, Wannan Yang, Kelvin Niu
長 horizon コーディングエージェントの test-time scaling は「サンプリング問題」ではなく「表現問題」だと主張。Claude Opus 4.5 は SWE-Bench Verified で 70.9% から 77.6% に向上。
論文はエージェンティックコーディングの test-time compute(TTC)を、サンプリング問題ではなく表現問題として再フレームします。各 rollout を構造化サマリ(hypotheses、progress、failure modes)に変換し、複数 rollout を Recursive Tournament Voting(並列)と Parallel-Distill-Refine(直列)で合成します。
数字(要約掲載分):mini-SWE-agent 上で Claude Opus 4.5 が SWE-Bench Verified で 70.9% → 77.6%、Terminal-Bench v2.0 で 46.9% → 59.1%。
実装ノート(私見)
「構造化サマリを compute の単位とする」点は私が実際に取り入れる部分です。多くの TTC レシピは「N サンプルを取って投票」ですが、この論文は過去の軌跡を圧縮して、後続の rollout が探索済みの基盤の上に立てるようにする方法を形式化しています。多 rollout のエージェントハーネスを回しているなら、生 transcript を rollout 単位の構造化サマリに置き換えてから投票するのは、工数が小さく計測可能なリターンを出すアップグレードです。
Recursive Tournament Voting の方は工学的でかつ実装に注意が必要ですが、その中間形式である構造化サマリだけなら 1 日で本番投入できます。