arXiv 2604.10261 · 2026-04-11
The Amazing Agent Race:ツール呼び出しは強く、Web ナビゲーションは弱い
Zae Myung Kim, Dongseok Lee, Jaehyung Kim
Wikipedia DAG パズルでベンチマークを構築。1,400 ケース 3 種のフレームワーク下、最良システムでも 37.2%。ナビゲーション誤りが支配的(27〜52%)、ツール呼び出し誤りは 17% 未満。
ベンチマークは DAG パズルを使い、エージェントに Wikipedia 上をナビゲートさせ、複数のツールを連鎖させ、結果を集約させます。1,400 ケース、3 種のエージェントフレームワークで、最良のシステムでも 37.2% にしか到達しませんでした。興味深いのは誤りの帰属で、ナビゲーション誤りが試行の 27〜52% を占め、ツール呼び出し誤りはいずれも 17% 未満でした。
実装ノート(私見)
この論文は「自分のモデルがツールを呼び出せるか」と「自分のモデルが長時間のブラウジングで一貫性を保てるか」を実証的に分けています。多くの開発者は前者を心配していますが、データが示すのは後者こそが本当のボトルネックだということです。
具体的な含意として、エージェントハーネスでは state tracking と replanning への投資 のほうが、ツール形式の磨き込みより価値があります。きれいなツールスキーマでは、自分が今どのページにいるか忘れたエージェントは救えません。