Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization

要約

マルチエージェント強化学習 (MARL) では、同盟国による予測不可能な行動や最悪の場合の行動に対する堅牢性を確保することが、現実世界の展開にとって重要です。
既存の堅牢な MARL 手法は、最悪の敵対者に対して考えられるすべての脅威シナリオを近似または列挙するため、計算量が増加し、堅牢性が低下します。
対照的に、人間の学習は、あらゆる脅威に備えることなく、日常生活の中で効率的に堅牢な行動を獲得します。
これに触発されて、私たちは堅牢な MARL を推論問題として構築し、オフポリシー評価を通じてすべての脅威シナリオの下で最悪の場合の堅牢性が暗黙的に最適化されます。
このフレームワーク内で、ルーチントレーニング中の堅牢な正則化 (MIR3) としての相互情報正則化が、敵対者の必要なしに堅牢性の下限を最大化することが保証されることを実証します。
さらに詳しい洞察により、MIR3 が情報のボトルネックとして機能し、エージェントが他のエージェントに過剰に反応するのを防ぎ、ポリシーを堅牢な事前アクションに合わせて調整することが示されています。
最悪の敵が存在する場合、当社の MIR3 は、StarCraft II とロボット群制御での協調パフォーマンスを維持しながら、堅牢性とトレーニング効率においてベースライン手法を大幅に上回ります。
現実世界にロボット群制御アルゴリズムを導入した場合、私たちの方法は最良のベースラインを 14.29% 上回りました。

要約(オリジナル)

In multi-agent reinforcement learning (MARL), ensuring robustness against unpredictable or worst-case actions by allies is crucial for real-world deployment. Existing robust MARL methods either approximate or enumerate all possible threat scenarios against worst-case adversaries, leading to computational intensity and reduced robustness. In contrast, human learning efficiently acquires robust behaviors in daily life without preparing for every possible threat. Inspired by this, we frame robust MARL as an inference problem, with worst-case robustness implicitly optimized under all threat scenarios via off-policy evaluation. Within this framework, we demonstrate that Mutual Information Regularization as Robust Regularization (MIR3) during routine training is guaranteed to maximize a lower bound on robustness, without the need for adversaries. Further insights show that MIR3 acts as an information bottleneck, preventing agents from over-reacting to others and aligning policies with robust action priors. In the presence of worst-case adversaries, our MIR3 significantly surpasses baseline methods in robustness and training efficiency while maintaining cooperative performance in StarCraft II and robot swarm control. When deploying the robot swarm control algorithm in the real world, our method also outperforms the best baseline by 14.29%.

arxiv情報

著者 Simin Li,Ruixiao Xu,Jingqiao Xiu,Yuwei Zheng,Pu Feng,Yaodong Yang,Xianglong Liu
発行日 2024-05-21 15:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク