要約
LLM ベースの自律エージェントは、これらの環境に固有の不確実性と複雑さのため、動的な対話を必要とする複雑な Web タスクの実行に失敗することがよくあります。
既存の LLM ベースの Web エージェントは通常、特定の状態とアクションに特化した専門家が設計した厳格なポリシーに依存しており、目に見えないタスクに適応するために必要な柔軟性と汎用性が欠けています。
対照的に、人間は、未知のものを探索し、戦略を継続的に適応させ、探索を通じて曖昧さを解決することで優れています。
人間のような適応性をエミュレートするには、Web エージェントは戦略的な探索と複雑な意思決定を必要とします。
モンテカルロ ツリー検索 (MCTS) はこれに適していますが、従来の MCTS は、Web タスク内の広大なアクション スペース、予測不可能な状態遷移、不完全な情報に苦戦します。
これを考慮して、複雑な Web 環境をより適切に処理できるように MCTS を改善する二重最適化戦略を備えたマルチエージェント システムである WebPilot を開発します。
具体的には、グローバル最適化フェーズでは、タスクを管理可能なサブタスクに分割して高レベルの計画を生成し、この計画を継続的に改良することで、検索プロセスに焦点を当て、従来の MCTS の広大なアクション スペースによってもたらされる課題を軽減します。
続いて、ローカル最適化フェーズでは、複雑な環境向けに設計されたカスタマイズされた MCTS を使用して各サブタスクを実行し、不確実性に効果的に対処し、不完全な情報を管理します。
WebArena と MiniWoB++ の実験結果は、WebPilot の有効性を示しています。
特に、WebArena では、WebPilot は GPT-4 で SOTA パフォーマンスを達成し、同時ツリー検索ベースの方法と比較して成功率の 93% の相対的向上を達成しました。
WebPilot は、一般的な自律エージェント機能の大幅な進歩を示し、実際の環境でより高度で信頼性の高い意思決定への道を開きます。
要約(オリジナル)
LLM-based autonomous agents often fail to execute complex web tasks that require dynamic interaction due to the inherent uncertainty and complexity of these environments. Existing LLM-based web agents typically rely on rigid, expert-designed policies specific to certain states and actions, which lack the flexibility and generalizability needed to adapt to unseen tasks. In contrast, humans excel by exploring unknowns, continuously adapting strategies, and resolving ambiguities through exploration. To emulate human-like adaptability, web agents need strategic exploration and complex decision-making. Monte Carlo Tree Search (MCTS) is well-suited for this, but classical MCTS struggles with vast action spaces, unpredictable state transitions, and incomplete information in web tasks. In light of this, we develop WebPilot, a multi-agent system with a dual optimization strategy that improves MCTS to better handle complex web environments. Specifically, the Global Optimization phase involves generating a high-level plan by breaking down tasks into manageable subtasks and continuously refining this plan, thereby focusing the search process and mitigating the challenges posed by vast action spaces in classical MCTS. Subsequently, the Local Optimization phase executes each subtask using a tailored MCTS designed for complex environments, effectively addressing uncertainties and managing incomplete information. Experimental results on WebArena and MiniWoB++ demonstrate the effectiveness of WebPilot. Notably, on WebArena, WebPilot achieves SOTA performance with GPT-4, achieving a 93% relative increase in success rate over the concurrent tree search-based method. WebPilot marks a significant advancement in general autonomous agent capabilities, paving the way for more advanced and reliable decision-making in practical environments.
arxiv情報
著者 | Yao Zhang,Zijian Ma,Yunpu Ma,Zhen Han,Yu Wu,Volker Tresp |
発行日 | 2024-08-28 17:49:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google