Safe Reinforcement Learning with Probabilistic Guarantees Satisfying Temporal Logic Specifications in Continuous Action Spaces

要約

Vanilla Reinforcement Learning (RL) は複雑なタスクを効率的に解決できますが、システムの動作については何の保証もありません。
このギャップを埋めるために、時相論理仕様に関して確率的保証を提供する、連続アクション空間用の 3 ステップの安全な RL 手順を提案します。
まず、私たちのアプローチは、有界セット内でシステムへの制御入力をランダム化しながら、時相論理仕様に関して候補コントローラーを確率的に検証します。
次に、制御入力を中心とした同じ有界セット内で検証済みコントローラーのパフォーマンスを最適化する RL エージェントを追加することで、この確率的に検証済みのコントローラーのパフォーマンスを向上させます。
第三に、学習されたエージェントの時相論理仕様に関する確率的安全性の保証を検証します。
私たちのアプローチは、連続的なアクションおよび状態空間に対して効率的に実装可能です。
安全性の検証とパフォーマンスの向上を 2 つの異なるステップに分離することで、明示的な確率論的な安全性の保証と、パフォーマンスに重点を置いた単純な RL セットアップの両方が実現します。
ロボットが特定の操作で動的障害物を回避しながら目標に到達する必要がある回避タスクに関するアプローチを評価します。
私たちの結果は、安全な RL アプローチが確率的安全仕様を維持しながら効率的な学習につながることを示しています。

要約(オリジナル)

Vanilla Reinforcement Learning (RL) can efficiently solve complex tasks but does not provide any guarantees on system behavior. To bridge this gap, we propose a three-step safe RL procedure for continuous action spaces that provides probabilistic guarantees with respect to temporal logic specifications. First, our approach probabilistically verifies a candidate controller with respect to a temporal logic specification while randomizing the control inputs to the system within a bounded set. Second, we improve the performance of this probabilistically verified controller by adding an RL agent that optimizes the verified controller for performance in the same bounded set around the control input. Third, we verify probabilistic safety guarantees with respect to temporal logic specifications for the learned agent. Our approach is efficiently implementable for continuous action and state spaces. The separation of safety verification and performance improvement into two distinct steps realizes both explicit probabilistic safety guarantees and a straightforward RL setup that focuses on performance. We evaluate our approach on an evasion task where a robot has to reach a goal while evading a dynamic obstacle with a specific maneuver. Our results show that our safe RL approach leads to efficient learning while maintaining its probabilistic safety specification.

arxiv情報

著者 Hanna Krasowski,Prithvi Akella,Aaron D. Ames,Matthias Althoff
発行日 2023-09-28 06:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク