COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

要約

この論文では、具体化されたマルチエージェント協力の問題を調査します。そこでは、分散型のエージェントが世界のエゴセントリックな見解のみを考えると協力しなければなりません。
この設定で効果的に計画するには、単一エージェントシナリオで世界のダイナミクスを学ぶこととは対照的に、世界の部分的なエゴセントリックな視覚観測のみが与えられた任意の数のエージェントのアクションを条件付けられた世界のダイナミクスをシミュレートする必要があります。
部分的な観察可能性のこの問題に対処するために、最初に生成モデルを訓練して、部分的なエゴセントリックな観察を与えられた世界全体の状態を推定します。
この世界状態での複数のアクションセットの正確なシミュレーションを有効にするために、複数のエージェントの自然に構成可能な共同アクションを考慮し、世界状態に条件付けられたビデオを構成することにより、マルチエージェント協力の構成世界モデルを学習することを提案します。
この構成の世界モデルを活用して、ビジョン言語モデルと組み合わせて他のエージェントのアクションを推測することにより、ツリー検索手順を使用してこれらのモジュールを統合し、オンライン協同組合計画を促進できます。
2〜4エージェントとの3つの挑戦的なベンチマークでの方法を評価します。
結果は、私たちの構成世界モデルが効果的であり、フレームワークにより、具体化されたエージェントがさまざまなタスクや任意の数のエージェントにわたってさまざまなエージェントと効率的に協力し、提案された方法の有望な未来を示していることを示しています。
その他のビデオは、https://embodied-agi.cs.umass.edu/combo/をご覧ください。

要約(オリジナル)

In this paper, we investigate the problem of embodied multi-agent cooperation, where decentralized agents must cooperate given only egocentric views of the world. To effectively plan in this setting, in contrast to learning world dynamics in a single-agent scenario, we must simulate world dynamics conditioned on an arbitrary number of agents’ actions given only partial egocentric visual observations of the world. To address this issue of partial observability, we first train generative models to estimate the overall world state given partial egocentric observations. To enable accurate simulation of multiple sets of actions on this world state, we then propose to learn a compositional world model for multi-agent cooperation by factorizing the naturally composable joint actions of multiple agents and compositionally generating the video conditioned on the world state. By leveraging this compositional world model, in combination with Vision Language Models to infer the actions of other agents, we can use a tree search procedure to integrate these modules and facilitate online cooperative planning. We evaluate our methods on three challenging benchmarks with 2-4 agents. The results show our compositional world model is effective and the framework enables the embodied agents to cooperate efficiently with different agents across various tasks and an arbitrary number of agents, showing the promising future of our proposed methods. More videos can be found at https://embodied-agi.cs.umass.edu/combo/.

arxiv情報

著者 Hongxin Zhang,Zeyuan Wang,Qiushi Lyu,Zheyuan Zhang,Sunli Chen,Tianmin Shu,Behzad Dariush,Kwonjoon Lee,Yilun Du,Chuang Gan
発行日 2025-03-13 14:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MA パーマリンク