要約
マルチエージェント強化学習 (MARL) では、協力的状況と敵対的状況の両方において、特に動的な環境において、対戦相手の戦略を正確に認識することが不可欠です。
Proximal Policy Optimization (PPO) と、Actor-Critic with Experience Replay (ACER)、Trust Regional Policy Optimization (TRPO)、Deep Deterministic Policy Gradient (DDPG) などの関連アルゴリズムは、単一エージェントの固定環境では良好にパフォーマンスしますが、問題が発生します。
対戦相手の非定常で隠されたポリシーによる MARL の大きな分散が原因で、報酬パフォーマンスの低下につながります。
さらに、MARL の既存の方法は、エージェント間のコミュニケーションの必要性、明示的な報酬情報への依存、高い計算要求、サンプリングの非効率など、重大な課題に直面しています。
これらの問題により、対戦相手が事前の通知なしに突然ポリシーを変更する可能性がある継続的な環境では、それらの効果が低下します。
このような背景に対して、我々は、動的なエラー減衰を利用して敵対者のポリシーの変更を検出するオンライン アルゴリズムである OPS-DeMo (オンライン ポリシー スイッチ検出モデル) を紹介します。
OPS-DeMo は、想定敵ポリシー (AOP) バンクを使用して信念を継続的に更新し、事前トレーニングされた応答ポリシー バンクから対応する応答を選択します。
各対応ポリシーは、一貫して戦略を立てる敵に対してトレーニングされるため、トレーニングの不確実性が軽減され、マルチエージェント環境で PPO などのアルゴリズムを効果的に使用できるようになります。
比較評価の結果、私たちのアプローチは、捕食者と獲物設定のような動的なシナリオで PPO でトレーニングされたモデルよりも優れたパフォーマンスを示し、突然の政策変更に対する堅牢性が向上し、敵対政策の正確な洞察を通じてより多くの情報に基づいた意思決定が可能になることが示されています。
要約(オリジナル)
In Multi-agent Reinforcement Learning (MARL), accurately perceiving opponents’ strategies is essential for both cooperative and adversarial contexts, particularly within dynamic environments. While Proximal Policy Optimization (PPO) and related algorithms such as Actor-Critic with Experience Replay (ACER), Trust Region Policy Optimization (TRPO), and Deep Deterministic Policy Gradient (DDPG) perform well in single-agent, stationary environments, they suffer from high variance in MARL due to non-stationary and hidden policies of opponents, leading to diminished reward performance. Additionally, existing methods in MARL face significant challenges, including the need for inter-agent communication, reliance on explicit reward information, high computational demands, and sampling inefficiencies. These issues render them less effective in continuous environments where opponents may abruptly change their policies without prior notice. Against this background, we present OPS-DeMo (Online Policy Switch-Detection Model), an online algorithm that employs dynamic error decay to detect changes in opponents’ policies. OPS-DeMo continuously updates its beliefs using an Assumed Opponent Policy (AOP) Bank and selects corresponding responses from a pre-trained Response Policy Bank. Each response policy is trained against consistently strategizing opponents, reducing training uncertainty and enabling the effective use of algorithms like PPO in multi-agent environments. Comparative assessments show that our approach outperforms PPO-trained models in dynamic scenarios like the Predator-Prey setting, providing greater robustness to sudden policy shifts and enabling more informed decision-making through precise opponent policy insights.
arxiv情報
著者 | Mohidul Haque Mridul,Mohammad Foysal Khan,Redwan Ahmed Rizvee,Md Mosaddek Khan |
発行日 | 2024-06-10 17:34:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google