Teaching AI Agents to Search with Reflective-MCTS and Exploratory Learning

要約

自律エージェントは、複雑な複数ステップの意思決定タスクを自動化する上で大きな可能性を示しています。
ただし、GPT-4o などの最先端のビジョン言語モデル (VLM) でさえ、特に複雑な Web 環境や長期的な計画タスクでは依然として人間レベルのパフォーマンスには達していません。
これらの制限に対処するために、エージェント アプリケーション用の o1 のようなモデルを構築するための Reflective Monte Carlo Tree Search (R-MCTS) と探索学習を紹介します。
まず、AI エージェントがその場で意思決定空間を探索する能力を強化するように設計された新しいテスト時アルゴリズムである R-MCTS を紹介します。
R-MCTS は、1) コントラスト反射を組み込むことにより、従来の MCTS を拡張します。これにより、エージェントは過去の対話から学習し、検索効率を動的に向上させることができます。
2) マルチエージェントの議論を使用して、信頼性の高い状態評価を提供します。
次に、外部の検索アルゴリズムに依存せずに推論時に検索するようにエージェントに教える新しい学習戦略である探索学習を紹介します。
困難な VisualWebArena ベンチマークでは、GPT-4o ベースの R-MCTS エージェントは、以前の最先端のものと比較して、さまざまなタスクにわたって 6% ~ 30% の相対的な向上を達成しました。
さらに、テスト時の検索から得た経験を、微調整によって効果的に GPT-4o に戻すことができることを示します。
探索的学習の後、GPT-4o は、1) 環境を探索し、状態を評価し、現在の状態では成功につながらないことを検出した場合に実行可能な状態に後戻りする能力を実証し、2) R-MCTS のパフォーマンスの 87% と一致します。
使用するコンピューティングが大幅に削減されます。
特に、私たちの研究は、トレーニング (R-MCTS によるデータ収集) とテスト時間の両方におけるコンピューティング スケーリング プロパティを実証しています。
これらの結果は、テスト時の検索と自己学習を通じて、エージェント アプリケーションに対する VLM の推論と計画能力を強化するという有望な研究の方向性を示唆しています。

要約(オリジナル)

Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we present Reflective Monte Carlo Tree Search (R-MCTS) and Exploratory Learning to build o1-like models for agentic applications. We first introduce R-MCTS, a novel test-time algorithm designed to enhance the ability of AI agents to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Next, we introduce Exploratory Learning, a novel learning strategy to teach agents to search at inference time without relying on any external search algorithms. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the experience gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. After Exploratory Learning, GPT-4o 1) demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success, and 2) matches 87% of R-MCTS’s performance while using significantly less compute. Notably, our work demonstrates the compute scaling properties in both training – data collection with R-MCTS – and testing time. These results suggest a promising research direction to enhance VLMs’ reasoning and planning capabilities for agentic applications via test-time search and self-learning.

arxiv情報

著者 Xiao Yu,Baolin Peng,Vineeth Vajipey,Hao Cheng,Michel Galley,Jianfeng Gao,Zhou Yu
発行日 2024-10-15 14:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク