COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

要約

この論文では、部分的な自己中心的な世界観しか与えられない場合、分散型エージェントが協力しなければならない、具体化されたマルチエージェント協力の問題を調査します。
この設定で効果的に計画を立てるには、単一エージェントのシナリオで世界のダイナミクスを学習するのとは対照的に、世界の部分的な自己中心的な視覚観察だけを与えて、任意の数のエージェントの行動を条件とした世界のダイナミクスをシミュレートする必要があります。
この部分的な可観測性の問題に対処するために、最初に生成モデルをトレーニングして、部分的な自己中心的な観測が与えられた場合に世界全体の状態を推定します。
この世界状態における複数セットのアクションの正確なシミュレーションを可能にするために、複数のエージェントの自然に構成可能な共同アクションを因数分解し、ビデオを構成的に生成することによって、マルチエージェント協力のための構成世界モデルを学習することを提案します。
この構成世界モデルを視覚言語モデルと組み合わせて活用し、他のエージェントの行動を推測することで、ツリー検索手順を使用してこれらのモジュールを統合し、オンラインでの協力計画を容易にすることができます。
私たちの方法の有効性を評価するために、ThreeDWorld シミュレーターを使用して 2 つの挑戦的な具体化されたマルチエージェントの長期協力タスクを作成し、2 ~ 4 つのエージェントで実験を行います。
結果は、私たちの構成世界モデルが効果的であり、このフレームワークにより、具体化されたエージェントがさまざまなタスクおよび任意の数のエージェントにわたって異なるエージェントと効率的に協力できることを示し、私たちが提案したフレームワークの有望な将来を示しています。
その他のビデオは https://vis-www.cs.umass.edu/combo/ でご覧いただけます。

要約(オリジナル)

In this paper, we investigate the problem of embodied multi-agent cooperation, where decentralized agents must cooperate given only partial egocentric views of the world. To effectively plan in this setting, in contrast to learning world dynamics in a single-agent scenario, we must simulate world dynamics conditioned on an arbitrary number of agents’ actions given only partial egocentric visual observations of the world. To address this issue of partial observability, we first train generative models to estimate the overall world state given partial egocentric observations. To enable accurate simulation of multiple sets of actions on this world state, we then propose to learn a compositional world model for multi-agent cooperation by factorizing the naturally composable joint actions of multiple agents and compositionally generating the video. By leveraging this compositional world model, in combination with Vision Language Models to infer the actions of other agents, we can use a tree search procedure to integrate these modules and facilitate online cooperative planning. To evaluate the efficacy of our methods, we create two challenging embodied multi-agent long-horizon cooperation tasks using the ThreeDWorld simulator and conduct experiments with 2-4 agents. The results show our compositional world model is effective and the framework enables the embodied agents to cooperate efficiently with different agents across various tasks and an arbitrary number of agents, showing the promising future of our proposed framework. More videos can be found at https://vis-www.cs.umass.edu/combo/.

arxiv情報

著者 Hongxin Zhang,Zeyuan Wang,Qiushi Lyu,Zheyuan Zhang,Sunli Chen,Tianmin Shu,Yilun Du,Chuang Gan
発行日 2024-04-16 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MA パーマリンク