Safe Reinforcement Learning via Hierarchical Adaptive Chance-Constraint Safeguards

要約

強化学習 (RL) の安全性を確保することは、通常は制約付きマルコフ決定プロセス (CMDP) として構成されており、現実世界の探査アプリケーションにとって非常に重要です。
CMDP を処理する現在のアプローチは、最適性と実現可能性のバランスをとるのに苦労しています。直接的な最適化手法では状態ごとのトレーニング中の安全性を確保できず、投影ベースの手法では長時間の反復を通じて非効率的にアクションを修正するためです。
これらの課題に対処するために、我々は適応型チャンス制約セーフガード(ACS)を提案します。これは、安全回復率を代理チャンス制約として使用し、探査中および収束達成後に繰り返し安全性を確保する、適応型のモデルフリーの安全な RL アルゴリズムです。
理論的分析により、緩和された確率的制約により、安全セットに対する前方不変性が十分に保証されることが示されています。
また、シミュレートされた安全性が重要なタスクと実際の安全性が重要なタスクの両方で実施さ​​れた広範な実験により、確率論的な現実世界の設定において最適性 (+23.8%)、堅牢性、および高速応答を維持しながら、安全性 (ほぼゼロ違反) を強化する有効性が実証されています。

要約(オリジナル)

Ensuring safety in Reinforcement Learning (RL), typically framed as a Constrained Markov Decision Process (CMDP), is crucial for real-world exploration applications. Current approaches in handling CMDP struggle to balance optimality and feasibility, as direct optimization methods cannot ensure state-wise in-training safety, and projection-based methods correct actions inefficiently through lengthy iterations. To address these challenges, we propose Adaptive Chance-constrained Safeguards (ACS), an adaptive, model-free safe RL algorithm using the safety recovery rate as a surrogate chance constraint to iteratively ensure safety during exploration and after achieving convergence. Theoretical analysis indicates that the relaxed probabilistic constraint sufficiently guarantees forward invariance to the safe set. And extensive experiments conducted on both simulated and real-world safety-critical tasks demonstrate its effectiveness in enforcing safety (nearly zero-violation) while preserving optimality (+23.8%), robustness, and fast response in stochastic real-world settings.

arxiv情報

著者 Zhaorun Chen,Zhuokai Zhao,Tairan He,Binhao Chen,Xuhao Zhao,Liang Gong,Chengliang Liu
発行日 2024-03-06 11:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク