arXiv 2604.10261 · 2026-04-11
The Amazing Agent Race:工具呼叫強,網頁導航弱
Zae Myung Kim, Dongseok Lee, Jaehyung Kim
用 Wikipedia DAG 拼圖建立 benchmark。1,400 案例三套 framework 下最佳系統 37.2%。導航錯誤主導(27-52%),工具呼叫錯誤 <17%。
Benchmark 用 DAG 拼圖,讓 agent 在 Wikipedia 上導航、串多個工具、聚合結果。1,400 案例三套 agent framework,最佳系統只達 37.2%。有意思的是錯誤歸因:導航錯誤佔 27-52% 的試驗,工具呼叫錯誤都在 17% 以下。
實戰筆記(我的)
這個論文實證地把「你的模型會不會呼叫工具」與「你的模型在長 browse 中能不能保持連貫」分開。多數開發者擔心前者;資料說後者才是真正的瓶頸。
具體含義:在 agent harness 上,state tracking 與 replanning 的投資要比 tool 格式打磨更值得。乾淨的 tool schema 救不了一個忘記自己在哪一頁的 agent。