要約
トレーニング中にハードステート制約を確実に満たす安全な強化学習 (RL) が、最近大きな注目を集めています。
たとえば、コントロール バリア機能 (CBF) に基づく安全フィルターは、RL エージェントの危険な動作をオンザフライで変更することで、安全な RL を実現する有望な方法を提供します。
既存の安全フィルタベースのアプローチには通常、不確実なダイナミクスの学習と学習されたモデル誤差の定量化が含まれており、適切なモデルを学習するために大量のデータが収集される前に保守的なフィルタが使用され、効率的な探索が妨げられます。
この論文では、外乱オブザーバー (DOB) とコントロール バリア機能 (CBF) を使用した安全で効率的な RL の方法を紹介します。
ハードステート制約を扱う既存のほとんどの安全な RL 手法とは異なり、私たちの手法はモデル学習を含まず、DOB を利用して不確実性の点ごとの値を正確に推定し、その値を堅牢な CBF 条件に組み込んで安全なアクションを生成します。
DOB ベースの CBF は、必要に応じて RL エージェントの動作を最小限に変更することで、モデルフリー RL アルゴリズムを備えた安全フィルターとして使用でき、学習プロセス全体を通じて安全性を確保できます。
一輪車と 2D クアローターでのシミュレーション結果は、提案された手法が、安全性違反率、サンプル効率、計算効率の点で、CBF とガウスプロセスベースのモデル学習を使用した最先端の安全な RL アルゴリズムよりも優れていることを示しています。
要約(オリジナル)
Safe reinforcement learning (RL) with assured satisfaction of hard state constraints during training has recently received a lot of attention. Safety filters, e.g., based on control barrier functions (CBFs), provide a promising way for safe RL via modifying the unsafe actions of an RL agent on the fly. Existing safety filter-based approaches typically involve learning of uncertain dynamics and quantifying the learned model error, which leads to conservative filters before a large amount of data is collected to learn a good model, thereby preventing efficient exploration. This paper presents a method for safe and efficient RL using disturbance observers (DOBs) and control barrier functions (CBFs). Unlike most existing safe RL methods that deal with hard state constraints, our method does not involve model learning, and leverages DOBs to accurately estimate the pointwise value of the uncertainty, which is then incorporated into a robust CBF condition to generate safe actions. The DOB-based CBF can be used as a safety filter with model-free RL algorithms by minimally modifying the actions of an RL agent whenever necessary to ensure safety throughout the learning process. Simulation results on a unicycle and a 2D quadrotor demonstrate that the proposed method outperforms a state-of-the-art safe RL algorithm using CBFs and Gaussian processes-based model learning, in terms of safety violation rate, and sample and computational efficiency.
arxiv情報
著者 | Yikun Cheng,Pan Zhao,Naira Hovakimyan |
発行日 | 2023-08-28 19:00:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google