要約
Browsergym Ecosystemは、Webエージェントの効率的な評価とベンチマーク、特に自動化と大規模な言語モデル(LLMS)のレバレッジングの必要性に拡大する必要性に対処しています。
多くの既存のベンチマークは、断片化と一貫性のない評価方法論に悩まされており、信頼できる比較と再現性のある結果を達成することが困難です。
以前の研究では、Drouin et al。
(2024)は、明確に定義された観測とアクションスペースを備えた統一されたジムのような環境を提供し、多様なベンチマーク全体で標準化された評価を促進することにより、これを解決することを目的としたBrowsergymを導入しました。
Webエージェント研究のための拡張BrowsErgymベースのエコシステムを提案します。これは、文献から既存のベンチマークを統一し、エージェントの作成、テスト、分析を支援する補完的なフレームワークであるAgentLabを含みます。
提案されているエコシステムは、一貫した評価と包括的な実験管理を確保しながら、新しいベンチマークを統合するための柔軟性を提供します。
サポートする証拠として、最初の大規模でマルチベンチマークWebエージェント実験を実施し、Browsergymで利用可能になった6つの人気のあるWebエージェントベンチマークにわたる6つの最先端のLLMのパフォーマンスを比較します。
他の発見の中でも、我々の結果は、GPT-4Oが優れている視覚関連のタスクを除き、Claude-3.5-Sonnetがほぼすべてのベンチマークで先導し、OpenaiとAnthropicの最新モデルの間の大きな矛盾を強調しています。
これらの進歩にもかかわらず、我々の結果は、実際のWeb環境に固有の複雑さと現在のモデルの制限により、堅牢で効率的なWebエージェントの構築が重要な課題のままであることを強調しています。
要約(オリジナル)
The BrowserGym ecosystem addresses the growing need for efficient evaluation and benchmarking of web agents, particularly those leveraging automation and Large Language Models (LLMs). Many existing benchmarks suffer from fragmentation and inconsistent evaluation methodologies, making it challenging to achieve reliable comparisons and reproducible results. In an earlier work, Drouin et al. (2024) introduced BrowserGym which aims to solve this by providing a unified, gym-like environment with well-defined observation and action spaces, facilitating standardized evaluation across diverse benchmarks. We propose an extended BrowserGym-based ecosystem for web agent research, which unifies existing benchmarks from the literature and includes AgentLab, a complementary framework that aids in agent creation, testing, and analysis. Our proposed ecosystem offers flexibility for integrating new benchmarks while ensuring consistent evaluation and comprehensive experiment management. As a supporting evidence, we conduct the first large-scale, multi-benchmark web agent experiment and compare the performance of 6 state-of-the-art LLMs across 6 popular web agent benchmarks made available in BrowserGym. Among other findings, our results highlight a large discrepancy between OpenAI and Anthropic’s latests models, with Claude-3.5-Sonnet leading the way on almost all benchmarks, except on vision-related tasks where GPT-4o is superior. Despite these advancements, our results emphasize that building robust and efficient web agents remains a significant challenge, due to the inherent complexity of real-world web environments and the limitations of current models.
arxiv情報
| 著者 | Thibault Le Sellier De Chezelles,Maxime Gasse,Alexandre Drouin,Massimo Caccia,Léo Boisvert,Megh Thakkar,Tom Marty,Rim Assouel,Sahar Omidi Shayegan,Lawrence Keunho Jang,Xing Han Lù,Ori Yoran,Dehan Kong,Frank F. Xu,Siva Reddy,Quentin Cappart,Graham Neubig,Ruslan Salakhutdinov,Nicolas Chapados,Alexandre Lacoste |
| 発行日 | 2025-02-28 16:02:27+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google