Probabilistic Safeguard for Reinforcement Learning Using Safety Index Guided Gaussian Process Models

要約

安全性は、強化学習 (RL) を物理世界に適用する際の最大の懸念事項の 1 つです。
その中核部分では、ホワイト ボックスまたはブラック ボックスのダイナミクス モデルを使用せずに、RL エージェントがハード ステート制約を永続的に満たすことを保証することが困難です。
この論文では、エージェントのダイナミクスがガウス プロセスとして学習される、あらゆるエージェントを保護するための統合モデル学習および安全制御フレームワークを紹介します。
提案された理論は、(i) 安全要件を最もよく達成するモデル学習用のオフライン データセットを構築する新しい方法を提供します。
(ii) 安全な制御の存在を保証するための安全性指標のパラメータ化ルール。
(iii) 前述のデータセットを使用してモデルを学習する場合の確率的前方不変性に関する安全性の保証。
シミュレーション結果は、私たちのフレームワークがさまざまな連続制御タスクにおいて安全違反がほぼゼロであることを保証することを示しています。

要約(オリジナル)

Safety is one of the biggest concerns to applying reinforcement learning (RL) to the physical world. In its core part, it is challenging to ensure RL agents persistently satisfy a hard state constraint without white-box or black-box dynamics models. This paper presents an integrated model learning and safe control framework to safeguard any agent, where its dynamics are learned as Gaussian processes. The proposed theory provides (i) a novel method to construct an offline dataset for model learning that best achieves safety requirements; (ii) a parameterization rule for safety index to ensure the existence of safe control; (iii) a safety guarantee in terms of probabilistic forward invariance when the model is learned using the aforementioned dataset. Simulation results show that our framework guarantees almost zero safety violation on various continuous control tasks.

arxiv情報

著者 Weiye Zhao,Tairan He,Changliu Liu
発行日 2023-05-13 06:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク