arXiv 2604.10261 · 2026-04-11

The Amazing Agent Race：ツール呼び出しは強く、Web ナビゲーションは弱い

Zae Myung Kim, Dongseok Lee, Jaehyung Kim

Wikipedia DAG パズルでベンチマークを構築。1,400 ケース 3 種のフレームワーク下、最良システムでも 37.2%。ナビゲーション誤りが支配的（27〜52%）、ツール呼び出し誤りは 17% 未満。

ベンチマークは DAG パズルを使い、エージェントに Wikipedia 上をナビゲートさせ、複数のツールを連鎖させ、結果を集約させます。1,400 ケース、3 種のエージェントフレームワークで、最良のシステムでも 37.2% にしか到達しませんでした。興味深いのは誤りの帰属で、ナビゲーション誤りが試行の 27〜52% を占め、ツール呼び出し誤りはいずれも 17% 未満でした。

実装ノート（私見）

この論文は「自分のモデルがツールを呼び出せるか」と「自分のモデルが長時間のブラウジングで一貫性を保てるか」を実証的に分けています。多くの開発者は前者を心配していますが、データが示すのは後者こそが本当のボトルネックだということです。

具体的な含意として、エージェントハーネスでは state tracking と replanning への投資 のほうが、ツール形式の磨き込みより価値があります。きれいなツールスキーマでは、自分が今どのページにいるか忘れたエージェントは救えません。