What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning?

要約

マルチエージェント強化学習 (MARL) のさまざまな方法は、エージェントのポリシーが正確な状態情報に基づいているという前提で開発されています。
ただし、深層強化学習 (DRL) を通じて学習されたポリシーは、敵対的な状態の摂動攻撃の影響を受けやすくなります。
この研究では、状態敵対的マルコフ ゲーム (SAMG) を提案し、状態の不確実性の下での MARL のさまざまな解決策の概念を調査する最初の試みを行います。
私たちの分析では、最適なエージェント ポリシーと堅牢なナッシュ均衡という一般的に使用されているソリューションの概念が SAMG に常に存在するとは限らないことが示されています。
この困難を回避するために、エージェントが最悪の場合の期待状態値を最大化することを目指す、ロバスト エージェント ポリシーと呼ばれる新しいソリューション概念を検討します。
有限状態および有限アクション SAMG に対する堅牢なエージェント ポリシーの存在を証明します。
さらに、状態の不確実性の下で MARL エージェントのための堅牢なポリシーを学習するための、堅牢なマルチエージェント敵対的アクタークリティック (RMA3C) アルゴリズムを提案します。
私たちの実験は、私たちのアルゴリズムが状態の摂動に直面したときに既存の方法よりも優れたパフォーマンスを示し、MARL ポリシーの堅牢性を大幅に向上させることを示しています。
私たちのコードは https://songyanghan.github.io/what_is_solution/ で公開されています。

要約(オリジナル)

Various methods for Multi-Agent Reinforcement Learning (MARL) have been developed with the assumption that agents’ policies are based on accurate state information. However, policies learned through Deep Reinforcement Learning (DRL) are susceptible to adversarial state perturbation attacks. In this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to investigate different solution concepts of MARL under state uncertainties. Our analysis shows that the commonly used solution concepts of optimal agent policy and robust Nash equilibrium do not always exist in SAMGs. To circumvent this difficulty, we consider a new solution concept called robust agent policy, where agents aim to maximize the worst-case expected state value. We prove the existence of robust agent policy for finite state and finite action SAMGs. Additionally, we propose a Robust Multi-Agent Adversarial Actor-Critic (RMA3C) algorithm to learn robust policies for MARL agents under state uncertainties. Our experiments demonstrate that our algorithm outperforms existing methods when faced with state perturbations and greatly improves the robustness of MARL policies. Our code is public on https://songyanghan.github.io/what_is_solution/.

arxiv情報

著者 Songyang Han,Sanbao Su,Sihong He,Shuo Han,Haizhao Yang,Shaofeng Zou,Fei Miao
発行日 2024-04-12 17:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA パーマリンク