要約
50以上のインタラクティブな課題のコレクションを通じて、汎用WebブラウジングAIエージェントを評価するために設計された包括的なベンチマークスイートであるWebGamesを紹介します。
これらの課題は、基本的なブラウザの相互作用、高度な入力処理、認知タスク、ワークフロー自動化、インタラクティブなエンターテイメント全体の現在のAIシステムの制限を体系的にテストする一方で、人間にとって簡単であるように特別に作成されています。
私たちのフレームワークは、ハーメチックテスト環境を通じて外部依存関係を排除し、検証可能なグラウンドトゥルースソリューションで再現可能な評価を確保します。
GPT-4O、Claude Computer-Use、Gemini-1.5-Pro、QWEN2-VLなど、人間のパフォーマンスに対してQWEN2-VLを含む主要なビジョン言語モデルを評価します。
結果は、人間のパフォーマンスが95.7%と比較して43.1%の成功率のみを達成し、最良のAIシステムが95.7%の成功率のみを達成し、現在のAIシステムの一般的なWeb相互作用パターンを処理する能力の基本的な制限を強調している、実質的な能力ギャップを明らかにしています。
このベンチマークは、webgames.convergence.aiで公開されており、迅速な評価サイクルを促進する軽量のクライアント側の実装を提供します。
モジュラーアーキテクチャと標準化されたチャレンジ仕様を通じて、WebGamesは、より有能なWebブラウジングエージェントの開発における進歩を測定するための堅牢な基盤を提供します。
要約(オリジナル)
We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems’ ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.
arxiv情報
著者 | George Thomas,Alex J. Chan,Jikun Kang,Wenqi Wu,Filippos Christianos,Fraser Greenlee,Andy Toulis,Marvin Purtorab |
発行日 | 2025-02-25 16:45:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google