OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

要約

大規模な言語モデルやマルチモーダル モデルの急速な開発により、GPT-4o などの独自モデルを使用して、Web ナビゲーションなどの現実世界のシナリオを処理できる自律エージェントを開発することに大きな関心が集まっています。
最近のオープンソースの取り組みでは、環境を探索し、時間の経過とともに継続的に改善する能力をエージェントに提供しようとしていますが、報酬シグナルが明確に定義されている合成環境でテキストのみのエージェントを構築しています。
このようなエージェントは、マルチモーダルな知覚能力を必要とし、グラウンドトゥルース信号が欠如している現実的な設定に一般化するのに苦労しています。
このペーパーでは、現実世界の探索を自律的に実行し、それ自体を改善できるマルチモーダル Web エージェントの開発を促進するように設計されたオープンソース フレームワークを紹介します。
まず、基本モデルを模倣学習でトレーニングして、基本的な能力を獲得します。
次に、エージェントにオープンウェブを探索させ、その軌跡に関するフィードバックを収集させます。
その後、別の汎用モデルで判定された好調な軌道を学習することで、方針をさらに改善します。
この探索、フィードバック、最適化のサイクルは、数回繰り返すことができます。
実験結果は、Web エージェントが各反復後に正常に改善し、複数のテスト セットにわたって優れたパフォーマンスを示していることを示しています。

要約(オリジナル)

The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

arxiv情報

著者 Hongliang He,Wenlin Yao,Kaixin Ma,Wenhao Yu,Hongming Zhang,Tianqing Fang,Zhenzhong Lan,Dong Yu
発行日 2024-10-25 15:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク