F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning

要約

従来の集中型マルチエージェント強化学習 (MARL) アルゴリズムは、エージェント間の非対話性、次元性の呪い、計算の複雑さのため、複雑なアプリケーションでは実用的でない場合があります。
したがって、いくつかの分散型 MARL アルゴリズムが動機付けられています。
ただし、既存の分散型手法は、トレーニング中に大量の情報を送信する必要がある完全に協力的な設定のみを処理します。
彼らが連続する独立したアクターとクリティカルのステップに使用したブロック座標勾配降下法は計算を簡素化できますが、深刻なバイアスを引き起こします。
この論文では、アクタークリティック手法のほとんどを組み合わせて、大規模な一般的な協力マルチエージェント設定を処理できる、柔軟な完全分散型アクタークリティックMARLフレームワークを提案します。
主双対ハイブリッド勾配降下型アルゴリズム フレームワークは、分散化のために個々のエージェントを個別に学習するように設計されています。
各エージェントの視点から、ポリシーの改善と価値評価を共同で最適化することで、マルチエージェントのポリシー学習を安定化できます。
さらに、私たちのフレームワークは、パラメータ共有メカニズムと、心の理論とオンライン教師あり学習に基づいた新しい他のエージェントのモデリング手法により、大規模環境のスケーラビリティと安定性を実現し、情報伝達を削減できます。
協調的なマルチエージェント パーティクル環境と StarCraft II での十分な実験により、当社の分散型 MARL インスタンス化アルゴリズムが従来の集中型および分散型の方法に対して競合的に機能することが示されています。

要約(オリジナル)

Traditional centralized multi-agent reinforcement learning (MARL) algorithms are sometimes unpractical in complicated applications, due to non-interactivity between agents, curse of dimensionality and computation complexity. Hence, several decentralized MARL algorithms are motivated. However, existing decentralized methods only handle the fully cooperative setting where massive information needs to be transmitted in training. The block coordinate gradient descent scheme they used for successive independent actor and critic steps can simplify the calculation, but it causes serious bias. In this paper, we propose a flexible fully decentralized actor-critic MARL framework, which can combine most of actor-critic methods, and handle large-scale general cooperative multi-agent setting. A primal-dual hybrid gradient descent type algorithm framework is designed to learn individual agents separately for decentralization. From the perspective of each agent, policy improvement and value evaluation are jointly optimized, which can stabilize multi-agent policy learning. Furthermore, our framework can achieve scalability and stability for large-scale environment and reduce information transmission, by the parameter sharing mechanism and a novel modeling-other-agents methods based on theory-of-mind and online supervised learning. Sufficient experiments in cooperative Multi-agent Particle Environment and StarCraft II show that our decentralized MARL instantiation algorithms perform competitively against conventional centralized and decentralized methods.

arxiv情報

著者 Wenhao Li,Bo Jin,Xiangfeng Wang,Junchi Yan,Hongyuan Zha
発行日 2023-07-07 05:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, stat.ML パーマリンク