Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning with Goal Imagination

要約

コンセンサスに達することが、複数のエージェントの調整の鍵となります。
協力的なタスクを達成するには、エージェントはチームの報酬を最大化するために最適な共同アクションを一貫して選択する必要があります。
ただし、現在の協調的なマルチエージェント強化学習 (MARL) 手法では、通常、コンセンサスが明示的に考慮されていないため、調整ミスの問題が発生する可能性があります。
この論文では、複数のエージェントを明示的に調整するためのモデルベースのコンセンサスメカニズムを提案します。
提案されているマルチエージェント目標想像力 (MAGI) フレームワークは、エージェントが想像された共通の目標について合意に達するように導きます。
共通の目標は、将来の状態の分布からサンプリングすることによって取得される、高い価値を持つ達成可能な状態です。
この分布を自己教師あり生成モデルで直接モデル化することで、モデルベースの手法で一般的に使用されるマルチエージェントの複数ステップのポリシー展開によって引き起こされる「次元の呪い」問題を軽減します。
我々は、このような効率的なコンセンサスメカニズムが、すべてのエージェントが協力して貴重な将来の状態に到達するように導くことができることを示します。
マルチエージェント粒子環境と Google Research Football 環境の結果は、サンプル効率とパフォーマンスの両方において MAGI が優れていることを示しています。

要約(オリジナル)

Reaching consensus is key to multi-agent coordination. To accomplish a cooperative task, agents need to coherently select optimal joint actions to maximize the team reward. However, current cooperative multi-agent reinforcement learning (MARL) methods usually do not explicitly take consensus into consideration, which may cause miscoordination problem. In this paper, we propose a model-based consensus mechanism to explicitly coordinate multiple agents. The proposed Multi-agent Goal Imagination (MAGI) framework guides agents to reach consensus with an Imagined common goal. The common goal is an achievable state with high value, which is obtained by sampling from the distribution of future states. We directly model this distribution with a self-supervised generative model, thus alleviating the ‘curse of dimensinality’ problem induced by multi-agent multi-step policy rollout commonly used in model-based methods. We show that such efficient consensus mechanism can guide all agents cooperatively reaching valuable future states. Results on Multi-agent Particle-Environments and Google Research Football environment demonstrate the superiority of MAGI in both sample efficiency and performance.

arxiv情報

著者 Liangzhou Wang,Kaiwen Zhu,Fengming Zhu,Xinghu Yao,Shujie Zhang,Deheng Ye,Haobo Fu,Qiang Fu,Wei Yang
発行日 2024-03-05 18:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク