arXiv 2604.13120 · 2026-04-13

AgentForge: 실행 검증을 핵심으로 하는 멀티 에이전트 SWE 프레임워크

Rajesh Kumar, Waqar Ali, Junaid Ahmed

"실행 검증"을 일등 원칙으로 도입했습니다. 모든 코드 변경은 Docker sandbox에서 통과한 뒤에야 다음으로 전달됩니다. SWE-Bench Lite 40.0%를 달성했습니다.

AgentForge는 모든 코드 변경이 다음 에이전트로 전달되기 전에 Docker sandbox에서 실행돼야 한다고 주장합니다. 다섯 가지 역할로 분리된 에이전트(Planner, Coder, Tester, Debugger, Critic)가 shared memory를 통해 협력합니다.

수치는 다음과 같습니다. SWE-Bench Lite에서 40.0%로, single-agent baseline 대비 26~28점 높습니다. Ablation 분석은 실행 피드백과 역할 분리가 각각 독립적으로 기여함을 보여줍니다.

실전 노트(개인적인)

가장 큰 시사점은 이렇습니다. 다음 토큰의 likelihood는 “테스트가 실제로 통과했는가”보다 약한 supervision 신호입니다. 코딩 에이전트를 운영하는 개발자들이 수렴하는 방향과 일치합니다(Claude Code의 검증 loop, Cursor의 test-aware Agent mode, GitHub의 새 Debugger 에이전트).

여러분의 개발에 적용 가능한 패턴은 이렇습니다. 각 에이전트 단계의 통과 조건은 “변경이 sandbox 실행에서 우리가 기대한 일을 했는가”이지, 모델이 자기 자신에 대해 가진 confidence가 아닙니다.