要約
自律システムが日常生活でより遍在するようになるにつれて、安全性を保証する高性能を確保することが重要です。
ただし、安全性とパフォーマンスは競合する目標である可能性があり、これにより、共同最適化が困難になります。
制約された強化学習(CRL)などの学習ベースの方法は、強力なパフォーマンスを達成しますが、安全性の制約として安全性が強制され、安全性が批判的な設定での使用を制限するため、正式な安全性の保証がありません。
逆に、Hamilton-Jacobi(HJ)Reachability Analysis and Control Barrier Functions(CBFS)などの正式な方法は、厳格な安全保証を提供しますが、しばしばパフォーマンスを無視して、過度に保守的なコントローラーをもたらします。
このギャップを埋めるために、州が制約した最適な制御問題としての安全性とパフォーマンスの共同最適化を定式化します。そこでは、コスト関数と安全要件を介してパフォーマンス目標がエンコードされ、状態の制約として課されます。
結果の値関数がハミルトン・ジャコビ・ベルマン(HJB)方程式を満たしていることを実証し、これを新しい物理学に基づいた機械学習フレームワークを使用して効率的に近似します。
さらに、学習エラーを定量化するためのコンフォーマル予測ベースの検証戦略を導入し、パフォーマンスの劣化に縛られた確率的エラーとともに、高い自信の安全価値関数を回復します。
いくつかのケーススタディを通じて、複雑で高次元の自律システムの安全でパフォーマンスのあるコントローラーのスケーラブルな学習を可能にする上で、提案されたフレームワークの有効性を実証します。
要約(オリジナル)
As autonomous systems become more ubiquitous in daily life, ensuring high performance with guaranteed safety is crucial. However, safety and performance could be competing objectives, which makes their co-optimization difficult. Learning-based methods, such as Constrained Reinforcement Learning (CRL), achieve strong performance but lack formal safety guarantees due to safety being enforced as soft constraints, limiting their use in safety-critical settings. Conversely, formal methods such as Hamilton-Jacobi (HJ) Reachability Analysis and Control Barrier Functions (CBFs) provide rigorous safety assurances but often neglect performance, resulting in overly conservative controllers. To bridge this gap, we formulate the co-optimization of safety and performance as a state-constrained optimal control problem, where performance objectives are encoded via a cost function and safety requirements are imposed as state constraints. We demonstrate that the resultant value function satisfies a Hamilton-Jacobi-Bellman (HJB) equation, which we approximate efficiently using a novel physics-informed machine learning framework. In addition, we introduce a conformal prediction-based verification strategy to quantify the learning errors, recovering a high-confidence safety value function, along with a probabilistic error bound on performance degradation. Through several case studies, we demonstrate the efficacy of the proposed framework in enabling scalable learning of safe and performant controllers for complex, high-dimensional autonomous systems.
arxiv情報
著者 | Manan Tayal,Aditya Singh,Shishir Kolathaya,Somil Bansal |
発行日 | 2025-02-24 12:56:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google