要約
最近の文献では、安全性の保証を維持しながら、高いパフォーマンスで制御ポリシーを学習するアプローチが提案されています。
ハミルトン・ヤコビ (HJ) 到達可能セットの合成は、安全性を検証し、複雑な高次元システムの強化学習ベースの制御ポリシーのトレーニングを監視するための効果的なツールとなっています。
以前は、HJ の到達可能性は主に低次元動的システムの検証に限定されていました。これは、HJ が依存する動的計画法アプローチの計算の複雑さがシステム状態の数とともに指数関数的に増大するためでした。
近年、提案された一連の方法は、真の到達可能セットの信頼できる推定を維持しながら、HJ 到達可能性分析を拡張する学習制御ポリシーと同時に到達可能性値関数を計算することで、この制限に対処しています。
これらの HJ 到達可能性近似は、学習された制御ポリシーの安全性、さらにはパフォーマンスを向上させるために使用され、動的障害物や LIDAR ベースまたはビジョンベースの観測などの困難なタスクを解決できます。
この調査論文では、高次元システムの信頼性に関するさらなる研究のための基礎基盤を提供する、強化学習における HJ 到達可能性推定の分野における最近の発展をレビューします。
要約(オリジナル)
Recent literature has proposed approaches that learn control policies with high performance while maintaining safety guarantees. Synthesizing Hamilton-Jacobi (HJ) reachable sets has become an effective tool for verifying safety and supervising the training of reinforcement learning-based control policies for complex, high-dimensional systems. Previously, HJ reachability was restricted to verifying low-dimensional dynamical systems primarily because the computational complexity of the dynamic programming approach it relied on grows exponentially with the number of system states. In recent years, a litany of proposed methods addresses this limitation by computing the reachability value function simultaneously with learning control policies to scale HJ reachability analysis while still maintaining a reliable estimate of the true reachable set. These HJ reachability approximations are used to improve the safety, and even reward performance, of learned control policies and can solve challenging tasks such as those with dynamic obstacles and/or with lidar-based or vision-based observations. In this survey paper, we review the recent developments in the field of HJ reachability estimation in reinforcement learning that would provide a foundational basis for further research into reliability in high-dimensional systems.
arxiv情報
著者 | Milan Ganai,Sicun Gao,Sylvia Herbert |
発行日 | 2024-08-21 19:45:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google