要約
BrowserGym エコシステムは、Web エージェント、特に Web インタラクション タスクの自動化とラージ言語モデル (LLM) を活用する Web エージェントの効率的な評価とベンチマークに対する高まるニーズに対応します。
既存のベンチマークの多くは断片化と一貫性のない評価手法に悩まされており、信頼できる比較と再現可能な結果を達成することが困難になっています。
BrowserGym は、明確に定義された観察スペースとアクション スペースを備えた統一されたジムのような環境を提供し、多様なベンチマークにわたる標準化された評価を容易にすることで、この問題を解決することを目指しています。
エージェントの作成、テスト、分析を支援する補完的なフレームワークである AgentLab と組み合わせることで、BrowserGym は、一貫した評価と包括的な実験管理を確保しながら、新しいベンチマークを統合するための柔軟性を提供します。
この標準化されたアプローチは、Web エージェントの開発にかかる時間と複雑さを軽減し、より信頼性の高い比較をサポートし、エージェントの動作の詳細な分析を容易にすることを目的としています。その結果、より適応性のある有能なエージェントが実現され、最終的に LLM 主導の自動化におけるイノベーションが加速される可能性があります。
裏付けとなる証拠として、私たちは最初の大規模なマルチベンチマーク Web エージェント実験を実施し、現在 BrowserGym で利用可能なすべてのベンチマークにわたって 6 つの最先端の LLM のパフォーマンスを比較しました。
他の調査結果の中でも特に、私たちの結果は、OpenAI と Anthropic の最新モデルの間に大きな差異があることを浮き彫りにしており、GPT-4o が優れている視覚関連のタスクを除き、Claude-3.5-Sonnet がほぼすべてのベンチマークでリードしています。
これらの進歩にもかかわらず、私たちの結果は、現実世界の Web 環境に固有の複雑さと現在のモデルの制限により、堅牢で効率的な Web エージェントを構築することが依然として大きな課題であることを強調しています。
要約(オリジナル)
The BrowserGym ecosystem addresses the growing need for efficient evaluation and benchmarking of web agents, particularly those leveraging automation and Large Language Models (LLMs) for web interaction tasks. Many existing benchmarks suffer from fragmentation and inconsistent evaluation methodologies, making it challenging to achieve reliable comparisons and reproducible results. BrowserGym aims to solve this by providing a unified, gym-like environment with well-defined observation and action spaces, facilitating standardized evaluation across diverse benchmarks. Combined with AgentLab, a complementary framework that aids in agent creation, testing, and analysis, BrowserGym offers flexibility for integrating new benchmarks while ensuring consistent evaluation and comprehensive experiment management. This standardized approach seeks to reduce the time and complexity of developing web agents, supporting more reliable comparisons and facilitating in-depth analysis of agent behaviors, and could result in more adaptable, capable agents, ultimately accelerating innovation in LLM-driven automation. As a supporting evidence, we conduct the first large-scale, multi-benchmark web agent experiment and compare the performance of 6 state-of-the-art LLMs across all benchmarks currently available in BrowserGym. Among other findings, our results highlight a large discrepancy between OpenAI and Anthropic’s latests models, with Claude-3.5-Sonnet leading the way on almost all benchmarks, except on vision-related tasks where GPT-4o is superior. Despite these advancements, our results emphasize that building robust and efficient web agents remains a significant challenge, due to the inherent complexity of real-world web environments and the limitations of current models.
arxiv情報
著者 | Thibault Le Sellier De Chezelles,Maxime Gasse,Alexandre Drouin,Massimo Caccia,Léo Boisvert,Megh Thakkar,Tom Marty,Rim Assouel,Sahar Omidi Shayegan,Lawrence Keunho Jang,Xing Han Lù,Ori Yoran,Dehan Kong,Frank F. Xu,Siva Reddy,Quentin Cappart,Graham Neubig,Ruslan Salakhutdinov,Nicolas Chapados,Alexandre Lacoste |
発行日 | 2024-12-10 18:28:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google