Probabilistic Counterexample Guidance for Safer Reinforcement Learning (Extended Version)

要約

安全な探索は、試行錯誤学習中の失敗により高いコストが発生する可能性がある安全性が重要なシナリオにおける強化学習 (RL) の制限に対処することを目的としています。
外部の知識を組み込んだり、近接センサー データを使用して危険な状態の探索を制限したりする方法がいくつか存在します。
ただし、エージェントが探索中に安全上の脅威を発見する必要がある未知の環境での探索リスクを軽減することは依然として課題です。
この論文では、安全要件の反例を使用してトレーニングを指導することにより、安全な探査の問題をターゲットにします。
私たちの方法は、連続状態空間システムと離散状態空間システムの両方を、エージェントが探索中に取得した安全関連の知識を表すコンパクトな抽象モデルに抽象化します。
次に、確率論的反例生成を活用して、安全要件違反を引き出す最小限のシミュレーション サブモデルを構築します。エージェントはオフラインで効率的にトレーニングして、その後のオンライン調査中に安全違反のリスクを最小限に抑えるためのポリシーを洗練できます。
私たちは、予備実験でオンライン探索中の安全違反を QL および DQN の標準アルゴリズムと比較して平均 40.3%、以前の関連研究と比較して 29.1% 削減するという私たちの手法の有効性を実証し、同時に無制限の探索と代替アプローチに関して同等の累積報酬を達成しました。

要約(オリジナル)

Safe exploration aims at addressing the limitations of Reinforcement Learning (RL) in safety-critical scenarios, where failures during trial-and-error learning may incur high costs. Several methods exist to incorporate external knowledge or to use proximal sensor data to limit the exploration of unsafe states. However, reducing exploration risks in unknown environments, where an agent must discover safety threats during exploration, remains challenging. In this paper, we target the problem of safe exploration by guiding the training with counterexamples of the safety requirement. Our method abstracts both continuous and discrete state-space systems into compact abstract models representing the safety-relevant knowledge acquired by the agent during exploration. We then exploit probabilistic counterexample generation to construct minimal simulation submodels eliciting safety requirement violations, where the agent can efficiently train offline to refine its policy towards minimising the risk of safety violations during the subsequent online exploration. We demonstrate our method’s effectiveness in reducing safety violations during online exploration in preliminary experiments by an average of 40.3% compared with QL and DQN standard algorithms and 29.1% compared with previous related work, while achieving comparable cumulative rewards with respect to unrestricted exploration and alternative approaches.

arxiv情報

著者 Xiaotong Ji,Antonio Filieri
発行日 2023-07-12 16:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.LO パーマリンク