要約
システム状態が特定の指定された安全でない領域に到達しないことを要求する厳しい制約の下で、未知の確率的環境において強化学習 (RL) エージェントの安全性を確保することは、非常に困難です。
制約付きマルコフ決定プロセス (CMDP) パラダイムに基づくものなど、一般的な安全な RL 手法の多くは、コスト関数で安全性違反を定式化し、累積コストの期待値をしきい値未満に制限しようとします。
しかし、多くの場合、安全違反コストに対する制約を伴う、到達可能性に基づくハードな安全制約を効果的に捕捉し、間接的に強制することは困難です。
この研究では、バリア関数の概念を活用してハードな安全制約を明示的にエンコードし、環境が未知であることを考慮して、それらを \emph{生成モデルベースのソフト バリア関数} の設計に緩和します。
このようなソフトバリアに基づいて、安全確率の最適化によって安全でない領域を効果的に回避しながら、環境を共同で学習して制御ポリシーを最適化できる安全なRLアプローチを提案します。
一連の例を用いた実験により、私たちのアプローチがハード安全制約を効果的に強制でき、シミュレーションで測定したシステム安全率において CMDP ベースのベースライン手法を大幅に上回ることが実証されました。
要約(オリジナル)
It is quite challenging to ensure the safety of reinforcement learning (RL) agents in an unknown and stochastic environment under hard constraints that require the system state not to reach certain specified unsafe regions. Many popular safe RL methods such as those based on the Constrained Markov Decision Process (CMDP) paradigm formulate safety violations in a cost function and try to constrain the expectation of cumulative cost under a threshold. However, it is often difficult to effectively capture and enforce hard reachability-based safety constraints indirectly with such constraints on safety violation costs. In this work, we leverage the notion of barrier function to explicitly encode the hard safety constraints, and given that the environment is unknown, relax them to our design of \emph{generative-model-based soft barrier functions}. Based on such soft barriers, we propose a safe RL approach that can jointly learn the environment and optimize the control policy, while effectively avoiding unsafe regions with safety probability optimization. Experiments on a set of examples demonstrate that our approach can effectively enforce hard safety constraints and significantly outperform CMDP-based baseline methods in system safe rate measured via simulations.
arxiv情報
著者 | Yixuan Wang,Simon Sinong Zhan,Ruochen Jiao,Zhilu Wang,Wanxin Jin,Zhuoran Yang,Zhaoran Wang,Chao Huang,Qi Zhu |
発行日 | 2023-06-13 17:38:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google