Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration

要約

マルチエージェント強化学習 (MARL) の出現は、自動運転車ネットワークなどのさまざまな分野を大きく変えています。
ただし、現実のマルチエージェント システムには通常、複数の役割が含まれており、これらのシステムの規模は動的に変動します。
したがって、ゼロショットでスケーラブルなコラボレーションを実現するには、さまざまな役割の戦略を規模に応じて柔軟に更新できることが不可欠ですが、これは現在の MARL フレームワークにとって依然として課題です。
これに対処するために、パラメータ共有 PPO ベースの MARL ネットワークに異種性を統合する、Scalable and Heterogeneous Proximal Policy Optimization (SHPPO) という名前の新しい MARL フレームワークを提案します。
まず潜在ネットワークを活用して、各エージェントの戦略パターンを適応的に学習します。
第 2 に、意思決定ネットワークに挿入される異種レイヤーを導入します。このレイヤーのパラメーターは、学習された潜在変数によって特別に生成されます。
私たちのアプローチは、異種レイヤーを除くすべてのパラメーターが共有されるためスケーラブルであり、個人間および時間的異質性の両方を獲得し、SHPPO がさまざまなスケールに効果的に適応できるようにします。
SHPPO は、Starcraft Multi-Agent Challenge (SMAC) や Google Research Football (GRF) などの古典的な MARL 環境で優れたパフォーマンスを示し、強化されたゼロショット スケーラビリティを示し、視覚化によって学習された潜在変数がチームのパフォーマンスに与える影響についての洞察を提供します。

要約(オリジナル)

The emergence of multi-agent reinforcement learning (MARL) is significantly transforming various fields like autonomous vehicle networks. However, real-world multi-agent systems typically contain multiple roles, and the scale of these systems dynamically fluctuates. Consequently, in order to achieve zero-shot scalable collaboration, it is essential that strategies for different roles can be updated flexibly according to the scales, which is still a challenge for current MARL frameworks. To address this, we propose a novel MARL framework named Scalable and Heterogeneous Proximal Policy Optimization (SHPPO), integrating heterogeneity into parameter-shared PPO-based MARL networks. We first leverage a latent network to learn strategy patterns for each agent adaptively. Second, we introduce a heterogeneous layer to be inserted into decision-making networks, whose parameters are specifically generated by the learned latent variables. Our approach is scalable as all the parameters are shared except for the heterogeneous layer, and gains both inter-individual and temporal heterogeneity, allowing SHPPO to adapt effectively to varying scales. SHPPO exhibits superior performance in classic MARL environments like Starcraft Multi-Agent Challenge (SMAC) and Google Research Football (GRF), showcasing enhanced zero-shot scalability, and offering insights into the learned latent variables’ impact on team performance by visualization.

arxiv情報

著者 Xudong Guo,Daming Shi,Junjie Yu,Wenhui Fan
発行日 2024-10-02 14:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, cs.SY, eess.SY パーマリンク