要約
マルチエージェント強化学習 (MARL) は、協調タスクで顕著な成功を収め、優れたパフォーマンスとスケーラビリティを実証しました。
ただし、現実世界のアプリケーションに MARL エージェントを展開すると、安全性に重大な課題が生じます。
現在の安全な MARL アルゴリズムは、主に制約付きマルコフ決定プロセス (CMDP) フレームワークに基づいています。このフレームワークでは、割引された累積コストに対してのみ制約が適用され、常に安全であるという保証がありません。
さらに、これらの方法では実現可能性の問題 (システムは必然的に制約セットの特定の領域内で状態制約に違反する) が見落とされることが多く、その結果、次善のパフォーマンスが得られるか、制約違反が増加します。
これらの課題に対処するために、$\textit{state-wise}$ 制約を備えた安全な MARL のための新しい理論的フレームワークを提案します。このフレームワークでは、エージェントが訪問するすべての州で安全要件が強制されます。
実現可能性の問題を解決するために、安全値関数によって特徴付けられる実現可能領域、制御不変集合 (CIS) の制御理論の概念を活用します。
私たちは、CISを識別するためのマルチエージェント手法を開発し、安全値関数のナッシュ均衡への収束を保証します。
CIS 識別を学習プロセスに組み込むことで、状態ごとに制約された協調マルコフ ゲームにおける一般化ナッシュ均衡への収束を保証するマルチエージェント デュアル ポリシー反復アルゴリズムを導入し、実現可能性とパフォーマンスの最適なバランスを実現します。
さらに、複雑な高次元システムでの実際的な展開のために、深層 RL パラダイム内で提案された反復スキームを近似する安全な MARL アルゴリズムである $\textit{Multi-Agent Dual Actor-Critic}$ (MADAC) を提案します。
安全な MARL ベンチマークの経験的評価では、MADAC が既存の手法よりも常に優れたパフォーマンスを示し、制約違反を軽減しながらはるかに高い報酬を提供することが実証されています。
要約(オリジナル)
Multi-agent reinforcement learning (MARL) has achieved notable success in cooperative tasks, demonstrating impressive performance and scalability. However, deploying MARL agents in real-world applications presents critical safety challenges. Current safe MARL algorithms are largely based on the constrained Markov decision process (CMDP) framework, which enforces constraints only on discounted cumulative costs and lacks an all-time safety assurance. Moreover, these methods often overlook the feasibility issue (the system will inevitably violate state constraints within certain regions of the constraint set), resulting in either suboptimal performance or increased constraint violations. To address these challenges, we propose a novel theoretical framework for safe MARL with $\textit{state-wise}$ constraints, where safety requirements are enforced at every state the agents visit. To resolve the feasibility issue, we leverage a control-theoretic notion of the feasible region, the controlled invariant set (CIS), characterized by the safety value function. We develop a multi-agent method for identifying CISs, ensuring convergence to a Nash equilibrium on the safety value function. By incorporating CIS identification into the learning process, we introduce a multi-agent dual policy iteration algorithm that guarantees convergence to a generalized Nash equilibrium in state-wise constrained cooperative Markov games, achieving an optimal balance between feasibility and performance. Furthermore, for practical deployment in complex high-dimensional systems, we propose $\textit{Multi-Agent Dual Actor-Critic}$ (MADAC), a safe MARL algorithm that approximates the proposed iteration scheme within the deep RL paradigm. Empirical evaluations on safe MARL benchmarks demonstrate that MADAC consistently outperforms existing methods, delivering much higher rewards while reducing constraint violations.
arxiv情報
著者 | Zeyang Li,Navid Azizan |
発行日 | 2024-11-22 16:08:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google