arXiv 2604.10261 · 2026-04-11

The Amazing Agent Race: 도구 호출은 강하지만 웹 내비게이션은 약하다

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

Wikipedia DAG 퍼즐로 벤치마크를 구성했습니다. 1,400 케이스를 세 가지 framework에서 돌린 결과 최고 시스템이 37.2%였고, 내비게이션 오류가 27~52%로 지배적인 반면 도구 호출 오류는 17% 미만이었습니다.

arxiv.org/abs/2604.10261 ↗

DAG 퍼즐 기반 벤치마크로, 에이전트가 Wikipedia에서 내비게이션하고 여러 도구를 연결하며 결과를 집계하도록 설계됐습니다. 1,400 케이스를 세 가지 에이전트 framework에서 평가했고, 최고 시스템은 37.2%에 그쳤습니다. 흥미로운 점은 오류 귀인입니다. 내비게이션 오류는 시도의 27~52%를 차지한 반면, 도구 호출 오류는 모두 17% 이하였습니다.

실전 노트(개인적인)

이 논문은 “여러분의 모델이 도구를 호출할 수 있는가”와 “여러분의 모델이 긴 brows 동안 일관성을 유지할 수 있는가”를 실증적으로 분리해 보여줍니다. 대부분의 개발자는 전자를 걱정하지만, 데이터에 따르면 진짜 병목은 후자입니다.

구체적으로는, 에이전트 harness에서 state tracking과 replanning에 투자하는 것이 도구 스키마를 다듬는 것보다 가치가 큽니다. 깔끔한 도구 스키마로는 자기가 어느 페이지에 있는지 잊어버리는 에이전트를 구할 수 없습니다.