Learning Safe Control via On-the-Fly Bandit Exploration

要約

高レベルのモデルの不確実性の下での安全要件を備えた制御タスクはますます一般的になっています。
機械学習技術は、通常、モデルエラーバウンドを活用して堅牢な制約ベースの安全フィルターを指定することにより、このようなタスクに対処するために頻繁に使用されます。
ただし、学習されたモデルの不確実性が非常に高い場合、対応するフィルターは潜在的に無効であるため、制御入力は安全フィルターによって課される制約を満たしていません。
ほとんどの作品は、何らかの形の安全なバックアップコントローラーを想定することでこの問題に対処しますが、ガウスプロセスBanditタイプのアルゴリズムを使用してその場で追加のデータを収集することで、私たちの問題に取り組みます。
制御バリア関数と学習モデルを組み合わせて、実行可能な場合は安全性を保証する堅牢な証明書を指定します。
実行可能性が発生するたびに、コントロールバリア機能を活用して探索を導き、収集されたデータが閉ループシステムの安全性に貢献するようにします。
この方法で安全フィルターと探索を組み合わせることにより、バックアップコントローラーを必要とせずに、ゼロ平均事前のダイナミクスモデルを可能にする設定で安全を実現することが証明されます。
私たちの知る限り、これを達成するのは最初の安全な学習ベースの制御方法です。

要約(オリジナル)

Control tasks with safety requirements under high levels of model uncertainty are increasingly common. Machine learning techniques are frequently used to address such tasks, typically by leveraging model error bounds to specify robust constraint-based safety filters. However, if the learned model uncertainty is very high, the corresponding filters are potentially invalid, meaning no control input satisfies the constraints imposed by the safety filter. While most works address this issue by assuming some form of safe backup controller, ours tackles it by collecting additional data on the fly using a Gaussian process bandit-type algorithm. We combine a control barrier function with a learned model to specify a robust certificate that ensures safety if feasible. Whenever infeasibility occurs, we leverage the control barrier function to guide exploration, ensuring the collected data contributes toward the closed-loop system safety. By combining a safety filter with exploration in this manner, our method provably achieves safety in a setting that allows for a zero-mean prior dynamics model, without requiring a backup controller. To the best of our knowledge, it is the first safe learning-based control method that achieves this.

arxiv情報

著者 Alexandre Capone,Ryan Cosner,Aaaron Ames,Sandra Hirche
発行日 2025-06-12 01:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク