arXiv 2604.10261 · 2026-04-11

The Amazing Agent Race：工具调用强，网页导航弱

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

用 Wikipedia DAG 拼图建立 benchmark。1,400 案例三套 framework 下最佳系统 37.2%。导航错误主导（27-52%），工具调用错误 <17%。

Benchmark 用 DAG 拼图，让 agent 在 Wikipedia 上导航、串多个工具、聚合结果。1,400 案例三套 agent framework，最佳系统只达 37.2%。有意思的是错误归因：导航错误占 27-52% 的试验，工具调用错误都在 17% 以下。

实战笔记（我的）

这个论文实证地把「你的模型会不会调用工具」与「你的模型在长 browse 中能不能保持连贯」分开。多数开发者担心前者；数据说后者才是真正的瓶颈。

具体含义：在 agent harness 上，state tracking 与 replanning 的投资要比 tool 格式打磨更值得。干净的 tool schema 救不了一个忘记自己在哪一页的 agent。