WebCanvas: Benchmarking Web Agents in Online Environments

要約

Web エージェントが実際に役立つためには、ユーザー インターフェイスとコンテンツの頻繁な更新を特徴とする継続的に進化する Web 環境に適応する必要があります。
ただし、既存のベンチマークのほとんどは、Web の静的な側面のみをキャプチャします。
このギャップを埋めるために、Web エージェント向けの革新的なオンライン評価フレームワークである WebCanvas を導入します。これは、Web インタラクションの動的な性質に効果的に対処します。
WebCanvas には、現実的な評価を容易にする 3 つの主要コンポーネントが含まれています。 (1) 重要でないイベントや変更された Web 要素によって引き起こされるノイズを無視しながら、タスクの完了に必要な重要な中間アクションまたは状態を確実に捕捉する新しい評価メトリクス。
(2) Mind2Web-Live と呼ばれるベンチマーク データセット。元の Mind2Web 静的データセットの改良版で、2439 の中間評価状態を持つ 542 のタスクが含まれています。
(3) コミュニティが高品質で最新のデータセットを収集および維持できるようにする、軽量で汎用的なアノテーション ツールとテスト パイプライン。
WebCanvas 上に構築され、推論のための拡張可能なモジュールを備えたエージェント フレームワークをオープンソース化し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
当社の最もパフォーマンスの高いエージェントは、Mind2Web-Live テスト セットでタスク成功率 23.1%、タスク完了率 48.8% を達成しました。
さらに、さまざまな Web サイト、ドメイン、実験環境にわたるパフォーマンスの差異を分析します。
私たちはコミュニティがオンライン エージェントの評価に関するさらなる洞察に貢献することを奨励し、それによってこの分野の研究を前進させます。

要約(オリジナル)

For web agents to be practically useful, they must adapt to the continuously evolving web environment characterized by frequent updates to user interfaces and content. However, most existing benchmarks only capture the static aspects of the web. To bridge this gap, we introduce WebCanvas, an innovative online evaluation framework for web agents that effectively addresses the dynamic nature of web interactions. WebCanvas contains three main components to facilitate realistic assessments: (1) A novel evaluation metric which reliably capture critical intermediate actions or states necessary for task completions while disregarding noise caused by insignificant events or changed web-elements. (2) A benchmark dataset called Mind2Web-Live, a refined version of original Mind2Web static dataset containing 542 tasks with 2439 intermediate evaluation states; (3) Lightweight and generalizable annotation tools and testing pipelines that enables the community to collect and maintain the high-quality, up-to-date dataset. Building on WebCanvas, we open-source an agent framework with extensible modules for reasoning, providing a foundation for the community to conduct online inference and evaluations. Our best-performing agent achieves a task success rate of 23.1% and a task completion rate of 48.8% on the Mind2Web-Live test set. Additionally, we analyze the performance discrepancies across various websites, domains, and experimental environments. We encourage the community to contribute further insights on online agent evaluation, thereby advancing this field of research.

arxiv情報

著者 Yichen Pan,Dehan Kong,Sida Zhou,Cheng Cui,Yifei Leng,Bing Jiang,Hangyu Liu,Yanyi Shang,Shuyan Zhou,Tongshuang Wu,Zhengyang Wu
発行日 2024-06-27 16:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク