Builder Daily

arXiv 2604.10261 · 2026-04-11

The Amazing Agent Race:工具调用强,网页导航弱

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

用 Wikipedia DAG 拼图建立 benchmark。1,400 案例三套 framework 下最佳系统 37.2%。导航错误主导(27-52%),工具调用错误 <17%。

arxiv.org/abs/2604.10261 ↗


Benchmark 用 DAG 拼图,让 agent 在 Wikipedia 上导航、串多个工具、聚合结果。1,400 案例三套 agent framework,最佳系统只达 37.2%。有意思的是错误归因:导航错误占 27-52% 的试验,工具调用错误都在 17% 以下。

实战笔记(我的)

这个论文实证地把「你的模型会不会调用工具」与「你的模型在长 browse 中能不能保持连贯」分开。多数开发者担心前者;数据说后者才是真正的瓶颈。

具体含义:在 agent harness 上,state tracking 与 replanning 的投资要比 tool 格式打磨更值得。干净的 tool schema 救不了一个忘记自己在哪一页的 agent。

请喝咖啡