Robust Multi-Agent Control via Maximum Entropy Heterogeneous-Agent Reinforcement Learning

要約

マルチエージェント強化学習では、現実世界への展開には堅牢性を保証した最適な制御が不可欠です。
しかし、既存の手法は、サンプルの複雑さ、トレーニングの不安定性、潜在的な次善のナッシュ平衡収束、および複数の摂動に対する非ロバスト性に関する課題に直面しています。
この論文では、これらの問題を解決するために \emph{確率的} ポリシーを学習するための統一フレームワークを提案します。
協調的 MARL 問題を確率的グラフィカル モデルに埋め込み、そこから MARL に最適な最大エントロピー (MaxEnt) 目標を導き出します。
MaxEnt フレームワークに基づいて、\emph{Heterogeneous-Agent Soft Actor-Critic} (HASAC) アルゴリズムを提案します。
理論的には、HASAC の \emph{量子応答平衡} (QRE) 特性への単調改善と収束を証明します。
さらに、HASAC は、報酬、環境ダイナミクス、状態、アクションの変動など、現実世界のさまざまな不確実性に対して堅牢であることが証明されています。
最後に、 \emph{Minimum Entropy Heterogeneous-Agent Mirror Learning} (MEHAML) という名前の MaxEnt アルゴリズム設計用の統合テンプレートを一般化します。これは、HASAC と同じ保証を備えた誘導メソッドを提供します。
私たちは、Bi-DexHands、マルチエージェント MuJoCo、Pursuit-Evade、StarCraft マルチエージェント チャレンジ、Google Research Football、マルチエージェント パーティクル環境、軽飛行機ゲームの 7 つのベンチマークで HASAC を評価します。
結果は、HASAC が 38 タスク中 34 タスクで一貫して強力なベースラインを上回り、トレーニングの安定性の向上、サンプル効率の向上、および十分な探索を示していることを示しています。
HASAC の堅牢性は、報酬、ダイナミクス、状態、アクションにおける 14 の大きさの不確実性、およびこれら 4 種類の不確実性に対するマルチロボット アリーナでの実世界の展開に遭遇したときにさらに検証されました。
\url{https://sites.google.com/view/meharl} のページをご覧ください。

要約(オリジナル)

In multi-agent reinforcement learning, optimal control with robustness guarantees are critical for its deployment in real world. However, existing methods face challenges related to sample complexity, training instability, potential suboptimal Nash Equilibrium convergence and non-robustness to multiple perturbations. In this paper, we propose a unified framework for learning \emph{stochastic} policies to resolve these issues. We embed cooperative MARL problems into probabilistic graphical models, from which we derive the maximum entropy (MaxEnt) objective optimal for MARL. Based on the MaxEnt framework, we propose \emph{Heterogeneous-Agent Soft Actor-Critic} (HASAC) algorithm. Theoretically, we prove the monotonic improvement and convergence to \emph{quantal response equilibrium} (QRE) properties of HASAC. Furthermore, HASAC is provably robust against a wide range of real-world uncertainties, including perturbations in rewards, environment dynamics, states, and actions. Finally, we generalize a unified template for MaxEnt algorithmic design named \emph{Maximum Entropy Heterogeneous-Agent Mirror Learning} (MEHAML), which provides any induced method with the same guarantees as HASAC. We evaluate HASAC on seven benchmarks: Bi-DexHands, Multi-Agent MuJoCo, Pursuit-Evade, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Game. Results show that HASAC consistently outperforms strong baselines in 34 out of 38 tasks, exhibiting improved training stability, better sample efficiency and sufficient exploration. The robustness of HASAC was further validated when encountering uncertainties in rewards, dynamics, states, and actions of 14 magnitudes, and real-world deployment in a multi-robot arena against these four types of uncertainties. See our page at \url{https://sites.google.com/view/meharl}.

arxiv情報

著者 Simin Li,Yifan Zhong,Jiarong Liu,Jianing Guo,Siyuan Qi,Ruixiao Xu,Xin Yu,Siyi Hu,Haobo Fu,Qiang Fu,Xiaojun Chang,Yujing Hu,Bo An,Xianglong Liu,Yaodong Yang
発行日 2024-12-11 16:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク