要約
アクションの前に推論し、潜在的な結果(つまり、世界モデル)を想像することは、複雑なオープンワールド環境で動作する具体化されたエージェントにとって不可欠です。
しかし、以前の作業には、これらの能力の1つのみがエンドツーエンドエージェントに組み込まれるか、複数の専門モデルをエージェントシステムに統合し、ポリシーの学習効率と一般化を制限します。
したがって、この論文は、リグと呼ばれるエンドツーエンドのジェネラリスト政策において、推論と想像力を相乗する最初の試みを行います。
エンドツーエンドの方法でリグをトレーニングするために、既存のエージェントから収集された軌跡の想像力と推論の内容を徐々に統合し、豊かにするデータパイプラインを構築します。
推論と次の画像生成の共同学習は、環境の推論、行動、ダイナミクスの間の固有の相関を明示的にモデル化するため、以前の作品と比較して17ドル以上のサンプル効率の改善と一般化を示します。
推論中に、次のアクションに関するRIGの最初の理由は、潜在的なアクションを生成し、アクションの結果を予測します。これにより、エージェントは、実際のアクションをとる前に想像力に基づいてレビューし、自己修正する機会を提供します。
実験結果は、推論と想像力の相乗効果が、一般主義政策の堅牢性、一般化、および相互運用性を改善するだけでなく、テスト時間スケーリングが全体的なパフォーマンスを向上させることを可能にすることを示しています。
要約(オリジナル)
Reasoning before action and imagining potential outcomes (i.e., world models) are essential for embodied agents operating in complex open-world environments. Yet, prior work either incorporates only one of these abilities in an end-to-end agent or integrates multiple specialized models into an agent system, limiting the learning efficiency and generalization of the policy. Thus, this paper makes the first attempt to synergize Reasoning and Imagination in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end manner, we construct a data pipeline that progressively integrates and enriches the content of imagination and reasoning in the trajectories collected from existing agents. The joint learning of reasoning and next image generation explicitly models the inherent correlation between reasoning, action, and dynamics of environments, and thus exhibits more than $17\times$ sample efficiency improvements and generalization in comparison with previous works. During inference, RIG first reasons about the next action, produces potential action, and then predicts the action outcomes, which offers the agent a chance to review and self-correct based on the imagination before taking real actions. Experimental results show that the synergy of reasoning and imagination not only improves the robustness, generalization, and interoperability of generalist policy but also enables test-time scaling to enhance overall performance.
arxiv情報
著者 | Zhonghan Zhao,Wenwei Zhang,Haian Huang,Kuikun Liu,Jianfei Gao,Gaoang Wang,Kai Chen |
発行日 | 2025-03-31 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google