Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning

要約

マルチエージェント補強学習(MARL)は、協力的な敵対的なタスクで強力なパフォーマンスを達成しています。
ただし、ほとんどの既存の方法は、通常、固定の対戦相手戦略に対してエージェントを訓練し、そのようなメタ静的な難易度に依存しているため、変化する環境への適応性を制限し、しばしば最適でないポリシーにつながります。
カリキュラム学習(CL)の成功に触発され、監視されたタスクでは、自己適応難易度調整メカニズムを採用するMARLの動的なCLフレームワークを提案します。
このメカニズムは、リアルタイムエージェントのトレーニングパフォーマンスに基づいて相手の強度を継続的に調節し、エージェントがより簡単なシナリオから徐々に学習できるようにします。
ただし、CLの動的な性質は、非定常環境とまばらなグローバルな報酬による不安定性を導入します。
この課題に対処するために、反事実的なグループの相対的な政策アドバンテージ(CGRPA)を開発します。これは、進化するタスクの要求に基づく各エージェントの影響を反映する本質的なクレジット信号を提供することにより、カリキュラムと密接に結びついています。
CGRPAは、グループ行動内の個々の貢献を分離する反事実上のアドバンテージ関数を構築し、カリキュラム全体でより信頼性の高いポリシー更新を促進します。
CGRPAは、反事実的アクションアドバンテージ関数を構築することにより、各エージェントの貢献を評価し、非定常条件下でクレジットの割り当てを強化し、学習を安定させる本質的な報酬を提供します。
広範な実験は、私たちの方法がトレーニングの安定性と最終パフォーマンスの両方を改善し、最先端の方法に対する競争結果を達成することを示しています。
このコードは、https://github.com/nice-hku/cl2marl-smacで入手できます。

要約(オリジナル)

Multi-agent reinforcement learning (MARL) has achieved strong performance in cooperative adversarial tasks. However, most existing methods typically train agents against fixed opponent strategies and rely on such meta-static difficulty conditions, which limits their adaptability to changing environments and often leads to suboptimal policies. Inspired by the success of curriculum learning (CL) in supervised tasks, we propose a dynamic CL framework for MARL that employs an self-adaptive difficulty adjustment mechanism. This mechanism continuously modulates opponent strength based on real-time agent training performance, allowing agents to progressively learn from easier to more challenging scenarios. However, the dynamic nature of CL introduces instability due to nonstationary environments and sparse global rewards. To address this challenge, we develop a Counterfactual Group Relative Policy Advantage (CGRPA), which is tightly coupled with the curriculum by providing intrinsic credit signals that reflect each agent’s impact under evolving task demands. CGRPA constructs a counterfactual advantage function that isolates individual contributions within group behavior, facilitating more reliable policy updates throughout the curriculum. CGRPA evaluates each agent’s contribution through constructing counterfactual action advantage function, providing intrinsic rewards that enhance credit assignment and stabilize learning under non-stationary conditions. Extensive experiments demonstrate that our method improves both training stability and final performance, achieving competitive results against state-of-the-art methods. The code is available at https://github.com/NICE-HKU/CL2MARL-SMAC.

arxiv情報

著者 Weiqiang Jin,Hongyang Du,Guizhong Liu,Dong In Kim
発行日 2025-06-09 08:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク