要約
バニラ強化学習(RL)は複雑なタスクを効率的に解くことができるが、システムの動作に関する保証は提供されていない。しかし、セーフティクリティカルな実システムでは、このような安全仕様の保証が必要である。このギャップを埋めるために、我々は、時間論理で指定された確率的保証が検証された連続行動空間に対する安全なRL手順を提案する。まず、本アプローチでは、拡張セット内でコントローラの入力をランダム化しながら、時間論理仕様に関して候補コントローラを確率的に検証する。次に、RLを用いて確率的に検証されたコントローラの性能を向上させ、コントローラの入力周辺の与えられた拡張集合の中を探索する。最後に、学習済みエージェントの時間論理仕様に関する確率的安全性保証を計算する。我々のアプローチは、連続的な行動空間と状態空間に対して効率的に実装可能であり、安全性の検証と性能向上を2つの異なるステップに分離している。我々は、ロボットが動的な障害物を特定の操作で回避しながらゴールに到達する必要がある回避タスクで我々のアプローチを評価した。その結果、我々の安全なRLアプローチは、安全仕様を確率的に維持しながら効率的な学習をもたらすことが示された。
要約(オリジナル)
Vanilla Reinforcement Learning (RL) can efficiently solve complex tasks but does not provide any guarantees on system behavior. Yet, for real-world systems, which are often safety-critical, such guarantees on safety specifications are necessary. To bridge this gap, we propose a safe RL procedure for continuous action spaces with verified probabilistic guarantees specified via temporal logic. First, our approach probabilistically verifies a candidate controller with respect to a temporal logic specification while randomizing the controller’s inputs within an expansion set. Then, we use RL to improve the performance of this probabilistically verified controller and explore in the given expansion set around the controller’s input. Finally, we calculate probabilistic safety guarantees with respect to temporal logic specifications for the learned agent. Our approach is efficiently implementable for continuous action and state spaces and separates safety verification and performance improvement into two distinct steps. We evaluate our approach on an evasion task where a robot has to reach a goal while evading a dynamic obstacle with a specific maneuver. Our results show that our safe RL approach leads to efficient learning while probablistically maintaining safety specifications.
arxiv情報
著者 | Hanna Krasowski,Prithvi Akella,Aaron Ames,Matthias Althoff |
発行日 | 2023-05-10 07:49:28+00:00 |
arxivサイト | arxiv_id(pdf) |