要約
決定論的逆強化学習 (IRL) 問題をオンラインかつリアルタイムで解決する際の重要な課題は、複数の解が存在することです。
非一意性により、同等の解、つまりコスト関数は異なるが同じフィードバック行列をもたらす解、およびそのような解への収束の概念の研究が必要になります。
同等の解への収束をもたらすオフライン アルゴリズムは文献で開発されていますが、非一意性に対処するオンラインのリアルタイム技術は利用できません。
この論文では、IRL 問題のほぼ等価な解に収束する正則化履歴スタック オブザーバーを開発します。
分析を容易にするために新しいデータリッチ条件が開発され、開発された技術の有効性を実証するためにシミュレーション結果が提供されます。
要約(オリジナル)
A key challenge in solving the deterministic inverse reinforcement learning (IRL) problem online and in real-time is the existence of multiple solutions. Nonuniqueness necessitates the study of the notion of equivalent solutions, i.e., solutions that result in a different cost functional but same feedback matrix, and convergence to such solutions. While offline algorithms that result in convergence to equivalent solutions have been developed in the literature, online, real-time techniques that address nonuniqueness are not available. In this paper, a regularized history stack observer that converges to approximately equivalent solutions of the IRL problem is developed. Novel data-richness conditions are developed to facilitate the analysis and simulation results are provided to demonstrate the effectiveness of the developed technique.
arxiv情報
著者 | Jared Town,Zachary Morrison,Rushikesh Kamalapurkar |
発行日 | 2024-05-30 17:31:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google