要約
マルチエージェント強化学習 (MARL) は、さまざまな逐次的意思決定および制御タスクのための重要なフレームワークとして浮上しています。
シングル エージェント システムとは異なり、マルチ エージェント システムではエージェント間の連携が成功する必要があります。
これらのシステムを現実世界のシナリオに展開するには、多くの場合、分散型トレーニング、多様なエージェントのセット、まれな環境報酬信号からの学習が必要です。
これらの課題は、部分的な可観測性とエージェントの異質性に関する事前知識の欠如の下でより顕著になります。
注目すべき研究では内発的動機づけ (IM) を使用して分散型設定における報酬の希薄性や協力に対処していますが、異質性を扱う研究では通常、集中型トレーニング、パラメータ共有、エージェントのインデックス付けを前提としています。
これらの制限を克服するために、我々は CoHet アルゴリズムを提案します。このアルゴリズムは、部分的な可観測性と報酬の希薄性という課題の下で、分散設定における異種エージェント ポリシーの学習を促進する、新しいグラフ ニューラル ネットワーク (GNN) ベースの内発的動機付けを利用します。
マルチエージェント粒子環境 (MPE) およびベクトル化マルチエージェント シミュレーター (VMAS) ベンチマークでの CoHet の評価では、さまざまな協力マルチエージェント シナリオにおいて、最先端のものと比較して優れたパフォーマンスが実証されました。
私たちの研究は、内発的動機づけモジュールに対するエージェント ダイナミクス モデルの影響の分析、さまざまな CoHet バリアントのパフォーマンスに関する洞察、および増加する異種エージェントに対する堅牢性によって補足されています。
要約(オリジナル)
Multi-agent Reinforcement Learning (MARL) is emerging as a key framework for various sequential decision-making and control tasks. Unlike their single-agent counterparts, multi-agent systems necessitate successful cooperation among the agents. The deployment of these systems in real-world scenarios often requires decentralized training, a diverse set of agents, and learning from infrequent environmental reward signals. These challenges become more pronounced under partial observability and the lack of prior knowledge about agent heterogeneity. While notable studies use intrinsic motivation (IM) to address reward sparsity or cooperation in decentralized settings, those dealing with heterogeneity typically assume centralized training, parameter sharing, and agent indexing. To overcome these limitations, we propose the CoHet algorithm, which utilizes a novel Graph Neural Network (GNN) based intrinsic motivation to facilitate the learning of heterogeneous agent policies in decentralized settings, under the challenges of partial observability and reward sparsity. Evaluation of CoHet in the Multi-agent Particle Environment (MPE) and Vectorized Multi-Agent Simulator (VMAS) benchmarks demonstrates superior performance compared to the state-of-the-art in a range of cooperative multi-agent scenarios. Our research is supplemented by an analysis of the impact of the agent dynamics model on the intrinsic motivation module, insights into the performance of different CoHet variants, and its robustness to an increasing number of heterogeneous agents.
arxiv情報
著者 | Jahir Sadik Monon,Deeparghya Dutta Barua,Md. Mosaddek Khan |
発行日 | 2024-08-12 21:38:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google