Beyond Browsing: API-Based Web Agents

要約

Webブラウザは、人間の活動の多くが実施されているインターネットのポータルです。
したがって、Webブラウジングを介してインターネットと対話するAIエージェントでは、重要な研究作業があります。
ただし、オンラインコンテンツとの機械の相互作用のために特別に設計された別のインターフェイス(アプリケーションプログラミングインターフェイス(API)もあります。
このペーパーでは、閲覧エージェントによって伝統的に取り組まれ、AIエージェントにAPIへのアクセスを提供するタスクを採用する場合はどうでしょうか。
そのために、2つの種類のエージェントを提案します。(1)従来のコーディングエージェントと同様に、APIのみを介してオンラインタスクを実行しようとするAPIコールエージェントと、(2)両方を介してオンラインデータと対話できるハイブリッドエージェント
WebブラウジングとAPI。
Webナビゲーションタスクの広く使用された現実的なベンチマークであるWebarenaの実験では、APIベースのエージェントがWebブラウジングエージェントよりも優れていることがわかります。
ハイブリッドエージェントは、タスク全体でほぼ均一に他の両方の他の人をパフォーマンスし、Webブラウジングだけで20.0%以上の絶対的な改善をもたらし、35.8%の成功率を達成し、タスク抗議エージェントのSOTAパフォーマンスを引き起こします。
これらの結果は、APIが利用可能になると、Webブラウジングだけに依存する魅力的な代替手段を提示することを強く示唆しています。

要約(オリジナル)

Web browsers are a portal to the internet, where much of human activity is undertaken. Thus, there has been significant research work in AI agents that interact with the internet through web browsing. However, there is also another interface designed specifically for machine interaction with online content: application programming interfaces (APIs). In this paper we ask — what if we were to take tasks traditionally tackled by browsing agents, and give AI agents access to APIs? To do so, we propose two varieties of agents: (1) an API-calling agent that attempts to perform online tasks through APIs only, similar to traditional coding agents, and (2) a Hybrid Agent that can interact with online data through both web browsing and APIs. In experiments on WebArena, a widely-used and realistic benchmark for web navigation tasks, we find that API-based agents outperform web browsing agents. Hybrid Agents out-perform both others nearly uniformly across tasks, resulting in a more than 20.0% absolute improvement over web browsing alone, achieving a success rate of 35.8%, achiving the SOTA performance among task-agnostic agents. These results strongly suggest that when APIs are available, they present an attractive alternative to relying on web browsing alone.

arxiv情報

著者 Yueqi Song,Frank Xu,Shuyan Zhou,Graham Neubig
発行日 2025-01-30 18:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA パーマリンク