要約
【タイトル】進化的な補助敵対的攻撃者の生成による堅牢なマルチエージェント調整
【要約】
・協調的なマルチエージェント強化学習(CMARL)は、多くの現実世界の応用に有望である。
・これまでの研究では、MARL特有の課題(例:不変性、クレジット割り当て、拡張性)を解決することに主眼を置いていたが、異なる環境でテストする際のポリシー摂動問題は無視されていた。
・本研究では、限られたポリシー敵対的Dec-POMDP(LPA-Dec-POMDP)として問題をモデル化し、一部の協調者が予期せず予測不能な数の悪意のあるアクション攻撃に遭遇する可能性があるが、通常の協調者は引き続き意図した目標に向かって努力すると考えられる。
・そこで、進化的な補助敵対的攻撃者の生成による堅牢なマルチエージェント調整(ROMANCE)を提案することで、トレーニング中に多様で強力な補助敵対的攻撃に遭遇することができるようにし、様々なポリシー摂動に対して高い堅牢性を実現する。
・具体的には、特定の攻撃者に自己システムが過剰に適合するのを避けるために、攻撃者の集合を維持し、攻撃者の高品質と行動の多様性を保証するために、スパースアクションに基づく新しい多様性正則化を適用している。
・自己システムは、維持された攻撃者集合から選択された人口攻撃者とペアリングし、絶えず進化する攻撃者に対して交互にトレーニングされる。
・SMACの複数のシナリオでの大規模な実験により、ROMANCEが他のベースラインよりも堅牢性と汎化能力が優れていることが示された。
要約(オリジナル)
Cooperative multi-agent reinforcement learning (CMARL) has shown to be promising for many real-world applications. Previous works mainly focus on improving coordination ability via solving MARL-specific challenges (e.g., non-stationarity, credit assignment, scalability), but ignore the policy perturbation issue when testing in a different environment. This issue hasn’t been considered in problem formulation or efficient algorithm design. To address this issue, we firstly model the problem as a limited policy adversary Dec-POMDP (LPA-Dec-POMDP), where some coordinators from a team might accidentally and unpredictably encounter a limited number of malicious action attacks, but the regular coordinators still strive for the intended goal. Then, we propose Robust Multi-Agent Coordination via Evolutionary Generation of Auxiliary Adversarial Attackers (ROMANCE), which enables the trained policy to encounter diversified and strong auxiliary adversarial attacks during training, thus achieving high robustness under various policy perturbations. Concretely, to avoid the ego-system overfitting to a specific attacker, we maintain a set of attackers, which is optimized to guarantee the attackers high attacking quality and behavior diversity. The goal of quality is to minimize the ego-system coordination effect, and a novel diversity regularizer based on sparse action is applied to diversify the behaviors among attackers. The ego-system is then paired with a population of attackers selected from the maintained attacker set, and alternately trained against the constantly evolving attackers. Extensive experiments on multiple scenarios from SMAC indicate our ROMANCE provides comparable or better robustness and generalization ability than other baselines.
arxiv情報
著者 | Lei Yuan,Zi-Qian Zhang,Ke Xue,Hao Yin,Feng Chen,Cong Guan,Li-He Li,Chao Qian,Yang Yu |
発行日 | 2023-05-10 05:29:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI