A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning

要約

この論文では、マルチエージェントアクション間の同時相互情報で累積リターンを正則化することにより、複数のエージェントが協調行動を学習できるようにする、マルチエージェント強化学習のための新しい相互情報フレームワークを提案します。
マルチエージェントアクション間のゼロ以外の相互情報を誘導する潜在変数を導入し、変分限界を適用することにより、考慮されるMMI正則化目的関数に扱いやすい下限を導き出します。
導出された扱いやすい目的は、最大エントロピー強化学習と、他のエージェント アクションの不確実性削減とを組み合わせたものとして解釈できます。
導出された下限を最大化するためにポリシー反復を適用して、分散実行による集中学習に従う変分最大相互情報マルチエージェント アクター クリティックという実用的なアルゴリズムを提案します。
調整が必要ないくつかのゲームで VM3-AC を評価し、数値結果は、VM3-AC が高品質の調整を必要とするマルチエージェント タスクで他の MARL アルゴリズムよりも優れていることを示しています。

要約(オリジナル)

In this paper, we propose a new mutual information framework for multi-agent reinforcement learning to enable multiple agents to learn coordinated behaviors by regularizing the accumulated return with the simultaneous mutual information between multi-agent actions. By introducing a latent variable to induce nonzero mutual information between multi-agent actions and applying a variational bound, we derive a tractable lower bound on the considered MMI-regularized objective function. The derived tractable objective can be interpreted as maximum entropy reinforcement learning combined with uncertainty reduction of other agents actions. Applying policy iteration to maximize the derived lower bound, we propose a practical algorithm named variational maximum mutual information multi-agent actor-critic, which follows centralized learning with decentralized execution. We evaluated VM3-AC for several games requiring coordination, and numerical results show that VM3-AC outperforms other MARL algorithms in multi-agent tasks requiring high-quality coordination.

arxiv情報

著者 Woojun Kim,Whiyoung Jung,Myungsik Cho,Youngchul Sung
発行日 2023-03-01 12:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク