arXiv 2604.13120 · 2026-04-13

AgentForge：以执行验证为核心的多代理 SWE 框架

Rajesh Kumar, Waqar Ali, Junaid Ahmed

把「执行验证」当作一等原则：每次 code 变更都要先在 Docker sandbox 中运行通过才能传递。SWE-Bench Lite 达 40.0%。

AgentForge 主张每次 code 变更传给下一个 agent 前都要先在 Docker sandbox 跑过。五个角色拆解的 agent（Planner、Coder、Tester、Debugger、Critic）通过 shared memory 协调。

数字：SWE-Bench Lite 达 40.0%，比 single-agent baseline 高 26-28 分。Ablation 显示执行反馈与角色拆解各自独立贡献。

实战笔记（我的）

最大的 takeaway：下一个 token 的 likelihood，是比「测试真的过了吗」更弱的 supervision 信号。 这与正在跑 coding agent 的开发者收敛的方向一致（Claude Code 的验证 loop、Cursor 的 test-aware Agent mode、GitHub 新的 Debugger agent）。

对你自己的开发，可操作的 pattern 是：每个 agent 步骤的通过条件，是「改动有没有让 sandbox run 做到我们预期的事」，不是模型对自己的信心。