arXiv 2604.13120 · 2026-04-13
AgentForge:以執行驗證為核心的多代理 SWE 框架
Rajesh Kumar, Waqar Ali, Junaid Ahmed
把「執行驗證」當作一等原則:每次 code 變更都要先在 Docker sandbox 中運行通過才能傳遞。SWE-Bench Lite 達 40.0%。
AgentForge 主張每次 code 變更傳給下一個 agent 前都要先在 Docker sandbox 跑過。五個角色拆解的 agent(Planner、Coder、Tester、Debugger、Critic)透過 shared memory 協調。
數字:SWE-Bench Lite 達 40.0%,比 single-agent baseline 高 26-28 分。Ablation 顯示執行回饋與角色拆解各自獨立貢獻。
實戰筆記(我的)
最大的 takeaway:下一個 token 的 likelihood,是比「測試真的有過嗎」更弱的 supervision 訊號。 這與正在跑 coding agent 的開發者收斂的方向一致(Claude Code 的驗證 loop、Cursor 的 test-aware Agent mode、GitHub 新的 Debugger agent)。
對你自己的開發,可操作的 pattern 是:每個 agent 步驟的通過條件,是「改動有沒有讓 sandbox run 做到我們預期的事」,不是模型對自己的信心。