AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

要約

パーソナライズされ標準化されたタスクに大規模言語モデル (LLM) を使用するエージェントによる自律性により、人間の効率が向上します。
Web タスク (予算内でホテルを予約するなど) を自動化することがますます求められています。
実際のニーズを満たす Web エージェントは、さまざまなエージェント グラウンディング シナリオの重要な概念実証の例としても機能し、その成功により、将来の多くのアプリケーションでの進歩が約束されます。
先行研究では、多くの場合、Web エージェント戦略 (プロンプト テンプレート、マルチエージェント システム、検索方法など) とそれに対応するコンテキスト内の例が手作りされており、すべての現実世界のシナリオにうまく一般化できない可能性があります。
一方で、Web エージェントの観察/アクション表現と、そのベースとなる LLM の事前トレーニング データとの間の不整合に関する研究は限られています。
この矛盾は、LLM が、具体化されたナビゲーション アクションやシンボリック Web 要素を含むタスクではなく、主に言語補完を目的としてトレーニングされている場合に特に顕著です。
私たちの研究では、LLM の機能とよりよく調和するように観察およびアクション空間を単純に調整することで、LLM ベースの Web エージェントを強化します。
このアプローチにより、ベース エージェントはさまざまな Web タスクで以前の方法よりも大幅に優れたパフォーマンスを発揮できるようになります。
具体的には、汎用 Web インタラクション タスクを特徴とするベンチマークである WebArena では、当社のエージェント AgentOccam は、以前の最先端の同時作業を絶対ポイントでそれぞれ 9.8 (+29.4%) および 5.9 (+15.8%) 上回っています。
は、観察とアクション スペースの調整により、同様の単純な Web エージェントよりも成功率を 26.6 ポイント (+161%) 高めます。
私たちは、コンテキスト内の例、新しいエージェントの役割、オンライン フィードバックや検索戦略を使用せずにこれを実現します。
AgentOccam のシンプルな設計は、Web タスクにおける LLM の印象的なゼロショット パフォーマンスを強調し、LLM ベースのエージェントの観察およびアクション スペースを注意深く調整するという重要な役割を強調します。

要約(オリジナル)

Autonomy via agents using large language models (LLMs) for personalized, standardized tasks boosts human efficiency. Automating web tasks (like booking hotels within a budget) is increasingly sought after. Fulfilling practical needs, the web agent also serves as an important proof-of-concept example for various agent grounding scenarios, with its success promising advancements in many future applications. Prior research often handcrafts web agent strategies (e.g., prompting templates, multi-agent systems, search methods, etc.) and the corresponding in-context examples, which may not generalize well across all real-world scenarios. On the other hand, there has been limited study on the misalignment between a web agent’s observation/action representation and the pre-training data of the LLM it’s based on. This discrepancy is especially notable when LLMs are primarily trained for language completion rather than tasks involving embodied navigation actions and symbolic web elements. Our study enhances an LLM-based web agent by simply refining its observation and action space to better align with the LLM’s capabilities. This approach enables our base agent to significantly outperform previous methods on a wide variety of web tasks. Specifically, on WebArena, a benchmark featuring general-purpose web interaction tasks, our agent AgentOccam surpasses the previous state-of-the-art and concurrent work by 9.8 (+29.4%) and 5.9 (+15.8%) absolute points respectively, and boosts the success rate by 26.6 points (+161%) over similar plain web agents with its observation and action space alignment. We achieve this without using in-context examples, new agent roles, online feedback or search strategies. AgentOccam’s simple design highlights LLMs’ impressive zero-shot performance on web tasks, and underlines the critical role of carefully tuning observation and action spaces for LLM-based agents.

arxiv情報

著者 Ke Yang,Yao Liu,Sapana Chaudhary,Rasool Fakoor,Pratik Chaudhari,George Karypis,Huzefa Rangwala
発行日 2024-10-17 17:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク