arXiv 2604.13120 · 2026-04-13
AgentForge:以执行验证为核心的多代理 SWE 框架
Rajesh Kumar, Waqar Ali, Junaid Ahmed
把「执行验证」当作一等原则:每次 code 变更都要先在 Docker sandbox 中运行通过才能传递。SWE-Bench Lite 达 40.0%。
AgentForge 主张每次 code 变更传给下一个 agent 前都要先在 Docker sandbox 跑过。五个角色拆解的 agent(Planner、Coder、Tester、Debugger、Critic)通过 shared memory 协调。
数字:SWE-Bench Lite 达 40.0%,比 single-agent baseline 高 26-28 分。Ablation 显示执行反馈与角色拆解各自独立贡献。
实战笔记(我的)
最大的 takeaway:下一个 token 的 likelihood,是比「测试真的过了吗」更弱的 supervision 信号。 这与正在跑 coding agent 的开发者收敛的方向一致(Claude Code 的验证 loop、Cursor 的 test-aware Agent mode、GitHub 新的 Debugger agent)。
对你自己的开发,可操作的 pattern 是:每个 agent 步骤的通过条件,是「改动有没有让 sandbox run 做到我们预期的事」,不是模型对自己的信心。