arXiv 2604.10261 · 2026-04-11

The Amazing Agent Race：工具呼叫強，網頁導航弱

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

用 Wikipedia DAG 拼圖建立 benchmark。1,400 案例三套 framework 下最佳系統 37.2%。導航錯誤主導（27-52%），工具呼叫錯誤 <17%。

Benchmark 用 DAG 拼圖，讓 agent 在 Wikipedia 上導航、串多個工具、聚合結果。1,400 案例三套 agent framework，最佳系統只達 37.2%。有意思的是錯誤歸因：導航錯誤佔 27-52% 的試驗，工具呼叫錯誤都在 17% 以下。

實戰筆記（我的）

這個論文實證地把「你的模型會不會呼叫工具」與「你的模型在長 browse 中能不能保持連貫」分開。多數開發者擔心前者；資料說後者才是真正的瓶頸。

具體含義：在 agent harness 上，state tracking 與 replanning 的投資要比 tool 格式打磨更值得。乾淨的 tool schema 救不了一個忘記自己在哪一頁的 agent。