要約
学習ベースのアプローチは、ブラックボックス動的システムの安全フィルターに対する効果的なアプローチとして浮上しています。
既存の方法は、コントロール バリア関数 (CBF) やハミルトン-ヤコビ (HJ) 到達可能性値関数などの証明書関数に依存していました。
私たちの仕事の主な動機は、最終的には、各状態での制御入力制約として安全制約を強制することが重要であるという認識です。
この制約に焦点を当てることで、特定の証明書機能ベースの設計への依存を排除できます。
これを達成するために、安全性の十分条件として機能する、各状態での制御入力に対する半空間制約を形成する識別超平面を定義します。
この概念は、従来の安全方法を一般化するだけでなく、特定の証明書機能への依存を排除することで安全フィルターの設計を簡素化します。
識別超平面を学習するための 2 つの戦略を紹介します。(a) ラベル付けに事前に検証された制御不変式セットを使用する教師あり学習アプローチ、および (b) そのようなラベルを必要としない強化学習 (RL) アプローチです。
従来の安全な RL アプローチとは異なり、私たちの方法の主な利点は、パフォーマンスと安全性が分離されていることです。
これにより、新しいタスクを学習するための再利用可能な安全フィルターが提供され、最初から再トレーニングする必要がなくなります。
そのため、識別超平面の新しい概念は、既存の証明書関数ベースまたは安全な RL 方法論を包含および拡張し、安全フィルターの設計に向けてより一般化可能な方向性を提供すると信じています。
要約(オリジナル)
Learning-based approaches are emerging as an effective approach for safety filters for black-box dynamical systems. Existing methods have relied on certificate functions like Control Barrier Functions (CBFs) and Hamilton-Jacobi (HJ) reachability value functions. The primary motivation for our work is the recognition that ultimately, enforcing the safety constraint as a control input constraint at each state is what matters. By focusing on this constraint, we can eliminate dependence on any specific certificate function-based design. To achieve this, we define a discriminating hyperplane that shapes the half-space constraint on control input at each state, serving as a sufficient condition for safety. This concept not only generalizes over traditional safety methods but also simplifies safety filter design by eliminating dependence on specific certificate functions. We present two strategies to learn the discriminating hyperplane: (a) a supervised learning approach, using pre-verified control invariant sets for labeling, and (b) a reinforcement learning (RL) approach, which does not require such labels. The main advantage of our method, unlike conventional safe RL approaches, is the separation of performance and safety. This offers a reusable safety filter for learning new tasks, avoiding the need to retrain from scratch. As such, we believe that the new notion of the discriminating hyperplane offers a more generalizable direction towards designing safety filters, encompassing and extending existing certificate-function-based or safe RL methodologies.
arxiv情報
著者 | Will Lavanakul,Jason J. Choi,Koushil Sreenath,Claire J. Tomlin |
発行日 | 2024-05-21 16:37:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google