Model-based Dynamic Shielding for Safe and Efficient Multi-Agent Reinforcement Learning

要約

タイトル:モデルベースのダイナミック・シールディングによる安全かつ効率的なマルチエージェント強化学習

要約:
– マルチエージェント強化学習(MARL)は報酬を最大化する方針を発見するが、学習段階や展開段階で安全性を保証することができない。
– 線形時間論理(LTL)を使用したシールディングは、単一エージェント強化学習(RL)において安全性を確保する有望な正式な方法であるが、マルチエージェントの場合、保守的な動作を引き起こし、複雑な環境でシールドの合成に計算上の課題をもたらす。
– この研究では、MARLアルゴリズムの設計を支援するため、モデルベースのダイナミック・シールディング(MBDS)を紹介している。アルゴリズムは、MARLエージェントと並行して実行される反応システムである分散シールドを合成し、安全でない行動をモニターして修正する。シールドはエージェントの状態に基づいて動的に分割、統合、再計算できる。これにより、協調オーバーヘッドなしに、複雑な環境でエージェントをモニターするためのシールドの効率的な合成が可能になる。
– また、ダイナミックシールディングの合成アルゴリズムを提案し、ダイナミクスモデルに関する事前知識がなくても、探索の早い段階で環境と対話して近似世界モデルを取得する。これにより、MBDSは形式的な安全性保証を高い確率で享受できる。
– シミュレーションにより、MBDSは安全保証と学習性能の両方の面で既存のベースラインを上回ることが証明されている。

要約(オリジナル)

Multi-Agent Reinforcement Learning (MARL) discovers policies that maximize reward but do not have safety guarantees during the learning and deployment phases. Although shielding with Linear Temporal Logic (LTL) is a promising formal method to ensure safety in single-agent Reinforcement Learning (RL), it results in conservative behaviors when scaling to multi-agent scenarios. Additionally, it poses computational challenges for synthesizing shields in complex multi-agent environments. This work introduces Model-based Dynamic Shielding (MBDS) to support MARL algorithm design. Our algorithm synthesizes distributive shields, which are reactive systems running in parallel with each MARL agent, to monitor and rectify unsafe behaviors. The shields can dynamically split, merge, and recompute based on agents’ states. This design enables efficient synthesis of shields to monitor agents in complex environments without coordination overheads. We also propose an algorithm to synthesize shields without prior knowledge of the dynamics model. The proposed algorithm obtains an approximate world model by interacting with the environment during the early stage of exploration, making our MBDS enjoy formal safety guarantees with high probability. We demonstrate in simulations that our framework can surpass existing baselines in terms of safety guarantees and learning performance.

arxiv情報

著者 Wenli Xiao,Yiwei Lyu,John Dolan
発行日 2023-04-13 06:08:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク