要約
学習ベースの手法は、古典的な制御手法では困難なことが多い非線形性の高い制御タスクを解決するための有望なアプローチを提供します。
安全特性の満足を保証するために、学習ベースの方法は、特性の証明書機能とともに制御ポリシーを共同学習します。
よくある例としては、安全性を求めるバリア関数や漸近安定性を求めるリアプノフ関数などがあります。
証明書機能の正確性を正式に検証できるホワイトボックス設定では、証明書機能を使用した学習ベースの制御が大幅に進歩しましたが、ブラックボックス設定では、証明書機能の信頼性を確保する取り組みはほとんど行われていません。
システムダイナミクスは不明です。
この研究では、ブラックボックス設定でのニューラル ネットワーク制御ポリシーと証明書機能の認証と修復の問題を検討します。
私たちは、実行時モニタリングを利用して、最初にトレーニングされたニューラル ネットワーク ポリシーと証明書に基づいて対象のプロパティに違反するシステムの動作を検出する新しいフレームワークを提案します。
これらの違反行為は、新しいトレーニング データを抽出するために使用されます。このデータは、ニューラル ネットワーク ポリシーと証明書関数を再トレーニングし、最終的に修復するために使用されます。
私たちは、2 つの自律システム制御タスクに対する学習ベースの制御のための最先端の方法によって学習されたニューラル ネットワーク ポリシーを修復し、安全率を高めるためにこのアプローチを使用することにより、このアプローチの有効性を経験的に実証します。
要約(オリジナル)
Learning-based methods provide a promising approach to solving highly non-linear control tasks that are often challenging for classical control methods. To ensure the satisfaction of a safety property, learning-based methods jointly learn a control policy together with a certificate function for the property. Popular examples include barrier functions for safety and Lyapunov functions for asymptotic stability. While there has been significant progress on learning-based control with certificate functions in the white-box setting, where the correctness of the certificate function can be formally verified, there has been little work on ensuring their reliability in the black-box setting where the system dynamics are unknown. In this work, we consider the problems of certifying and repairing neural network control policies and certificate functions in the black-box setting. We propose a novel framework that utilizes runtime monitoring to detect system behaviors that violate the property of interest under some initially trained neural network policy and certificate. These violating behaviors are used to extract new training data, that is used to re-train the neural network policy and the certificate function and to ultimately repair them. We demonstrate the effectiveness of our approach empirically by using it to repair and to boost the safety rate of neural network policies learned by a state-of-the-art method for learning-based control on two autonomous system control tasks.
arxiv情報
著者 | Emily Yu,Đorđe Žikelić,Thomas A. Henzinger |
発行日 | 2024-12-17 15:15:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google