要約
実際のWebサイトの決定論的シミュレーションに関するマルチターンエージェント評価のためのベンチマークとフレームワークを紹介します。
Realは、eコマース、旅行、コミュニケーション、プロのネットワーキングなどのドメイン全体で、広く使用されている11のWebサイトの高忠実度、決定論的レプリカで構成されています。
また、正確な情報検索と状態を変えるアクションの両方を必要とする日常の複雑なユーザーインタラクションを反映する112の実用的なタスクで構成されるベンチマークをリリースします。
すべての相互作用は、この完全に制御された設定内で発生し、安全性のリスクを排除し、エージェントの能力と信頼性の堅牢で再現可能な評価を可能にします。
私たちの新しい評価フレームワークは、情報検索のためのルーブリック誘導LLMベースの判断とアクションベースのタスクのWebサイト状態のプログラムチェックを組み合わせています。
このフレームワークは、ブラウザ環境内のブラックボックスコマンドに対応する柔軟な評価ハーネスを介して、オープンソースと独自のエージェントシステムの両方をサポートし、研究室が変更なしでエージェントシステムをテストできるようにします。
私たちの経験的結果は、フロンティア言語モデルが、自律的なWebナビゲーションとタスク完了機能の重要なギャップを強調する、実際の成功率でせいぜい41%の成功率を達成することを示しています。
当社のフレームワークは、新しいタスクの簡単な統合、再現可能な評価、およびスケーラブルなトレーニング後のデータ生成をサポートし、エージェント機能の評価と進歩において重要な前進を示しています。
要約(オリジナル)
We introduce REAL, a benchmark and framework for multi-turn agent evaluations on deterministic simulations of real-world websites. REAL comprises high-fidelity, deterministic replicas of 11 widely-used websites across domains such as e-commerce, travel, communication, and professional networking. We also release a benchmark consisting of 112 practical tasks that mirror everyday complex user interactions requiring both accurate information retrieval and state-changing actions. All interactions occur within this fully controlled setting, eliminating safety risks and enabling robust, reproducible evaluation of agent capability and reliability. Our novel evaluation framework combines programmatic checks of website state for action-based tasks with rubric-guided LLM-based judgments for information retrieval. The framework supports both open-source and proprietary agent systems through a flexible evaluation harness that accommodates black-box commands within browser environments, allowing research labs to test agentic systems without modification. Our empirical results show that frontier language models achieve at most a 41% success rate on REAL, highlighting critical gaps in autonomous web navigation and task completion capabilities. Our framework supports easy integration of new tasks, reproducible evaluation, and scalable post-training data generation, marking a significant step forward in evaluating and advancing agent capabilities.
arxiv情報
著者 | Divyansh Garg,Shaun VanWeelden,Diego Caples,Andis Draguns,Nikil Ravi,Pranav Putta,Naman Garg,Tomas Abraham,Michael Lara,Federico Lopez,James Liu,Atharva Gundawar,Prannay Hebbar,Youngchul Joo,Jindong Gu,Charles London,Christian Schroeder de Witt,Sumeet Motwani |
発行日 | 2025-04-17 16:28:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google