Builder Daily

arXiv 2604.10261 · 2026-04-11

The Amazing Agent Race:工具呼叫強,網頁導航弱

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

用 Wikipedia DAG 拼圖建立 benchmark。1,400 案例三套 framework 下最佳系統 37.2%。導航錯誤主導(27-52%),工具呼叫錯誤 <17%。

arxiv.org/abs/2604.10261 ↗


Benchmark 用 DAG 拼圖,讓 agent 在 Wikipedia 上導航、串多個工具、聚合結果。1,400 案例三套 agent framework,最佳系統只達 37.2%。有意思的是錯誤歸因:導航錯誤佔 27-52% 的試驗,工具呼叫錯誤都在 17% 以下。

實戰筆記(我的)

這個論文實證地把「你的模型會不會呼叫工具」與「你的模型在長 browse 中能不能保持連貫」分開。多數開發者擔心前者;資料說後者才是真正的瓶頸。

具體含義:在 agent harness 上,state tracking 與 replanning 的投資要比 tool 格式打磨更值得。乾淨的 tool schema 救不了一個忘記自己在哪一頁的 agent。

請喝咖啡