Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization

要約

マルチエージェント近位政策最適化(MAPPO)は最近、挑戦的なマルチエージェント強化学習タスクに関する最先端のパフォーマンスを実証しました。
ただし、Mappoは依然としてクレジット割り当ての問題に苦労しており、個々のエージェントのアクションに対するクレジットをチームの規模であまり拡大していないという困難です。
この論文では、MAPPOを改善するためにクレジット割り当ての最近の開発を適応させるマルチエージェント強化学習アルゴリズムを提案します。
私たちのアプローチは、部分的な報酬分離(PRD)を活用します。これは、学習した注意メカニズムを使用して、特定のエージェントのチームメイトのどれが学習更新に関連しているかを推定します。
この推定値を使用して、エージェントの大規模なグループをより小さく、より管理しやすいサブグループに動的に分解します。
当社のアプローチであるPRD-Mappoが、予想される将来の報酬に影響を与えないチームメイトのエージェントを離脱し、それによりクレジットの割り当てを合理化することを経験的に実証します。
さらに、PRD-Mappoは、Starcraft IIを含むいくつかのマルチエージェントタスクにわたるMAPPOおよびその他の最先端の方法の両方と比較して、大幅に高いデータ効率と漸近パフォーマンスをもたらすことを示しています。
最後に、PRDが以前は適用されていなかった\ TextIT {Shared}報酬設定に適用できるPRD-Mappoのバージョンを提案し、これがMAPPOのパフォーマンスの改善にもつながることを経験的に示しています。

要約(オリジナル)

Multi-agent proximal policy optimization (MAPPO) has recently demonstrated state-of-the-art performance on challenging multi-agent reinforcement learning tasks. However, MAPPO still struggles with the credit assignment problem, wherein the sheer difficulty in ascribing credit to individual agents’ actions scales poorly with team size. In this paper, we propose a multi-agent reinforcement learning algorithm that adapts recent developments in credit assignment to improve upon MAPPO. Our approach leverages partial reward decoupling (PRD), which uses a learned attention mechanism to estimate which of a particular agent’s teammates are relevant to its learning updates. We use this estimate to dynamically decompose large groups of agents into smaller, more manageable subgroups. We empirically demonstrate that our approach, PRD-MAPPO, decouples agents from teammates that do not influence their expected future reward, thereby streamlining credit assignment. We additionally show that PRD-MAPPO yields significantly higher data efficiency and asymptotic performance compared to both MAPPO and other state-of-the-art methods across several multi-agent tasks, including StarCraft II. Finally, we propose a version of PRD-MAPPO that is applicable to \textit{shared} reward settings, where PRD was previously not applicable, and empirically show that this also leads to performance improvements over MAPPO.

arxiv情報

著者 Aditya Kapoor,Benjamin Freed,Howie Choset,Jeff Schneider
発行日 2025-02-07 10:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク