arXiv 2604.13120 · 2026-04-13

AgentForge：実行検証を中核に据えるマルチエージェント SWE フレームワーク

Rajesh Kumar, Waqar Ali, Junaid Ahmed

「実行検証」を第一級の原則として扱う。コード変更は次のエージェントに渡す前に Docker サンドボックスで実行通過しなければならない。SWE-Bench Lite で 40.0%。

AgentForge は、コード変更を次のエージェントに渡す前に Docker サンドボックスで実行することを主張します。Planner、Coder、Tester、Debugger、Critic の 5 役割に分解されたエージェントが共有メモリを介して協調します。

数字としては、SWE-Bench Lite で 40.0%、シングルエージェントの baseline より 26〜28 ポイント高い結果です。Ablation により、実行フィードバックと役割分解はそれぞれ独立して寄与していることが示されています。

実装ノート（私見）

最大の takeaway は次の点です。次トークンの likelihood は、「テストが本当に通ったか」より弱い supervision シグナルです。 これはコーディングエージェントを実際に運用する開発者が収束しつつある方向と一致しています（Claude Code の検証ループ、Cursor の test-aware Agent モード、GitHub の新しい Debugger エージェントなど）。

自分の開発で取り入れられるパターンは次の通りです。各エージェントステップの通過条件を「変更がサンドボックス実行で期待通りの動作を引き起こしたか」とし、モデル自身の自信ではなく、外部観測に置くこと。