Learning safety critics via a non-contractive binary bellman operator

要約

強化学習 (RL) では、失敗が限られているものの、安全性を自然に強制することができないことが、実世界のアプリケーションでの使用を妨げる中心的な課題となっています。
実用上非常に関連性の高い安全性の概念の 1 つは、状態空間の (安全でない) 領域を回避する能力です。
このような安全目標は、アクション値のような関数、別名安全性批判関数によって捉えることができますが、関連する演算子には、古典的なベルマン演算子が享受する望ましい短縮性と一意性の特性が欠けています。
この研究では、安全性が二項対立の性質であることを利用して、安全性を批判する演算子の非収縮性を克服します。
そのために、私たちは、危険な領域への到達を回避しようとする決定論的な力学システムに関連するバイナリ安全性批評家の特性を研究します。
私たちは、安全性のために対応する二値ベルマン方程式 (B2E) を定式化し、その特性を研究します。
結果の演算子は依然として非収縮的ですが、偽の解を除いて、常に失敗を回避できる状態空間の最大永続的安全領域を表すその固定点を完全に特徴付けます。
当社は、設計上、安全なデータに関する公理的な知識を活用して、偽の固定点を回避するアルゴリズムを提供します。

要約(オリジナル)

The inability to naturally enforce safety in Reinforcement Learning (RL), with limited failures, is a core challenge impeding its use in real-world applications. One notion of safety of vast practical relevance is the ability to avoid (unsafe) regions of the state space. Though such a safety goal can be captured by an action-value-like function, a.k.a. safety critics, the associated operator lacks the desired contraction and uniqueness properties that the classical Bellman operator enjoys. In this work, we overcome the non-contractiveness of safety critic operators by leveraging that safety is a binary property. To that end, we study the properties of the binary safety critic associated with a deterministic dynamical system that seeks to avoid reaching an unsafe region. We formulate the corresponding binary Bellman equation (B2E) for safety and study its properties. While the resulting operator is still non-contractive, we fully characterize its fixed points representing–except for a spurious solution–maximal persistently safe regions of the state space that can always avoid failure. We provide an algorithm that, by design, leverages axiomatic knowledge of safe data to avoid spurious fixed points.

arxiv情報

著者 Agustin Castellano,Hancheng Min,Juan Andrés Bazerque,Enrique Mallada
発行日 2024-01-23 15:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク