要約
マルチエージェント システムの台頭、特にマルチエージェント強化学習 (MARL) の成功は、自動運転車ネットワークなどのさまざまな領域にわたって私たちの未来を再構築しています。
しかし、MARL は依然として大きな課題に直面しており、特にゼロショット スケーラビリティの達成において、トレーニング済みの MARL モデルをさまざまな数のエージェントによる目に見えないタスクに直接適用できるようになります。
さらに、現実世界のマルチエージェント システムには通常、さまざまな機能と戦略を持つエージェントが含まれていますが、既存のスケーラブルな MARL 手法の異質性は限られています。
これに対処するために、パラメータ共有 PPO ベースの MARL ネットワークに異種性を統合する、Scalable and Heterogeneous Proximal Policy Optimization (SHPPO) という名前の新しい MARL フレームワークを提案します。
まず潜在ネットワークを活用して、各エージェントの戦略パターンを適応的に学習します。
第 2 に、意思決定のための異種レイヤーを導入します。このレイヤーのパラメーターは、学習された潜在変数によって特別に生成されます。
私たちのアプローチは、異質層を除くすべてのパラメーターが共有されるためスケーラブルであり、個人間および時間的異質性の両方を同時に獲得します。
当社では、SHPPO として最先端のバックボーン PPO ベースのアルゴリズムに基づいてアプローチを実装していますが、当社のアプローチはバックボーンに依存せず、パラメーターを共有する任意の MARL メソッドにシームレスに接続できます。
SHPPO は、Starcraft Multi-Agent Challenge (SMAC) や Google Research Football (GRF) などの古典的な MARL 環境で MAPPO や HAPPO などのベースラインよりも優れたパフォーマンスを示し、強化されたゼロショット スケーラビリティを示し、学習された潜在表現がチームに与える影響についての洞察を提供します。
視覚化によるパフォーマンス。
要約(オリジナル)
The rise of multi-agent systems, especially the success of multi-agent reinforcement learning (MARL), is reshaping our future across diverse domains like autonomous vehicle networks. However, MARL still faces significant challenges, particularly in achieving zero-shot scalability, which allows trained MARL models to be directly applied to unseen tasks with varying numbers of agents. In addition, real-world multi-agent systems usually contain agents with different functions and strategies, while the existing scalable MARL methods only have limited heterogeneity. To address this, we propose a novel MARL framework named Scalable and Heterogeneous Proximal Policy Optimization (SHPPO), integrating heterogeneity into parameter-shared PPO-based MARL networks. we first leverage a latent network to adaptively learn strategy patterns for each agent. Second, we introduce a heterogeneous layer for decision-making, whose parameters are specifically generated by the learned latent variables. Our approach is scalable as all the parameters are shared except for the heterogeneous layer, and gains both inter-individual and temporal heterogeneity at the same time. We implement our approach based on the state-of-the-art backbone PPO-based algorithm as SHPPO, while our approach is agnostic to the backbone and can be seamlessly plugged into any parameter-shared MARL method. SHPPO exhibits superior performance over the baselines such as MAPPO and HAPPO in classic MARL environments like Starcraft Multi-Agent Challenge (SMAC) and Google Research Football (GRF), showcasing enhanced zero-shot scalability and offering insights into the learned latent representation’s impact on team performance by visualization.
arxiv情報
著者 | Xudong Guo,Daming Shi,Junjie Yu,Wenhui Fan |
発行日 | 2024-04-05 03:02:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google