arXiv 2604.13120 · 2026-04-13

AgentForge：以執行驗證為核心的多代理 SWE 框架

Rajesh Kumar, Waqar Ali, Junaid Ahmed

把「執行驗證」當作一等原則：每次 code 變更都要先在 Docker sandbox 中運行通過才能傳遞。SWE-Bench Lite 達 40.0%。

AgentForge 主張每次 code 變更傳給下一個 agent 前都要先在 Docker sandbox 跑過。五個角色拆解的 agent（Planner、Coder、Tester、Debugger、Critic）透過 shared memory 協調。

數字：SWE-Bench Lite 達 40.0%，比 single-agent baseline 高 26-28 分。Ablation 顯示執行回饋與角色拆解各自獨立貢獻。

實戰筆記（我的）

最大的 takeaway：下一個 token 的 likelihood，是比「測試真的有過嗎」更弱的 supervision 訊號。 這與正在跑 coding agent 的開發者收斂的方向一致（Claude Code 的驗證 loop、Cursor 的 test-aware Agent mode、GitHub 新的 Debugger agent）。

對你自己的開發，可操作的 pattern 是：每個 agent 步驟的通過條件，是「改動有沒有讓 sandbox run 做到我們預期的事」，不是模型對自己的信心。