MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization

要約

堅牢なマルチエージェント強化学習 (MARL) には、未知の味方による不確実なまたは最悪の場合の行動に対する回復力が必要です。
堅牢な MARL における既存の最大-最小最適化手法は、最悪の場合の敵対者に対してエージェントをトレーニングすることで回復力を強化しようとしますが、エージェントの数が増えるとこれは困難になり、最悪の場合のシナリオが指数関数的に増加します。
この複雑さを単純化しようとすると、多くの場合、過度に悲観的なポリシー、シナリオ全体にわたる不十分な堅牢性、および高い計算要求が生じます。
これらのアプローチとは異なり、人間は考えられるあらゆる最悪のシナリオに備える必要がなく、適応的で回復力のある行動を自然に学習します。
これを動機として、私たちは日常的なシナリオでポリシーを訓練し、堅牢な正則化として相互情報を最小限に抑える MIR2 を提案します。
理論的には、ロバスト性を推論問題として組み立て、履歴とアクションの間の相互情報を最小限に抑えると、特定の仮定の下でロバスト性の下限が暗黙的に最大化されることを証明します。
さらなる分析により、私たちが提案したアプローチは、エージェントが情報のボトルネックを通じて他のエージェントに過剰に反応することを防ぎ、ポリシーを事前の強力なアクションと整合させることが明らかになりました。
経験的に、当社の MIR2 は、StarCraft II、マルチエージェント Mujoco、ランデブーにおける最大-最小最適化よりも、最悪の敵対者に対してさらに優れた回復力を示します。
困難な現実世界のロボット群制御シナリオに導入した場合でも、当社の優位性は一貫しています。
補足資料のコードとデモ ビデオを参照してください。

要約(オリジナル)

Robust multi-agent reinforcement learning (MARL) necessitates resilience to uncertain or worst-case actions by unknown allies. Existing max-min optimization techniques in robust MARL seek to enhance resilience by training agents against worst-case adversaries, but this becomes intractable as the number of agents grows, leading to exponentially increasing worst-case scenarios. Attempts to simplify this complexity often yield overly pessimistic policies, inadequate robustness across scenarios and high computational demands. Unlike these approaches, humans naturally learn adaptive and resilient behaviors without the necessity of preparing for every conceivable worst-case scenario. Motivated by this, we propose MIR2, which trains policy in routine scenarios and minimize Mutual Information as Robust Regularization. Theoretically, we frame robustness as an inference problem and prove that minimizing mutual information between histories and actions implicitly maximizes a lower bound on robustness under certain assumptions. Further analysis reveals that our proposed approach prevents agents from overreacting to others through an information bottleneck and aligns the policy with a robust action prior. Empirically, our MIR2 displays even greater resilience against worst-case adversaries than max-min optimization in StarCraft II, Multi-agent Mujoco and rendezvous. Our superiority is consistent when deployed in challenging real-world robot swarm control scenario. See code and demo videos in Supplementary Materials.

arxiv情報

著者 Simin Li,Ruixiao Xu,Jun Guo,Pu Feng,Jiakai Wang,Aishan Liu,Yaodong Yang,Xianglong Liu,Weifeng Lv
発行日 2023-10-31 15:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク