A Differential Dynamic Programming Framework for Inverse Reinforcement Learning

要約

逆強化学習 (IRL) 用の差分動的プログラミング (DDP) ベースのフレームワークが導入され、コスト関数、システム ダイナミクス、制約のパラメーターをデモから復元します。
不等式制約のある内側の順問題に DDP が使用された既存の研究とは異なり、私たちが提案するフレームワークは、等式制約と不等式制約のある外側の逆問題で必要な勾配の効率的な計算に DDP を使用します。
提案された方法とポントリャギンの最大原理 (PMP) に基づく既存の方法との間の等価性が確立されます。
さらに重要なのは、この DDP ベースの IRL を開ループ損失関数とともに使用すると、閉ループ IRL フレームワークが提供されることです。
このフレームワークでは、デモンストレーションの閉ループの性質を捉えるための損失関数が提案されています。
これは、一般的に使用される開ループ損失関数よりも優れていることが示されています。
閉ループ IRL フレームワークが、特定の仮定の下で制約付き逆最適制御問題に帰着することを示します。
これらの仮定とランク条件の下で、デモ データから学習パラメータを回復できることが証明されます。
提案されたフレームワークは、4 つの数値ロボット例と 1 つの現実世界のクワッドローター システムを通じて広範囲に評価されます。
実験は理論的結果を検証し、アプローチの実際的な関連性を示します。

要約(オリジナル)

A differential dynamic programming (DDP)-based framework for inverse reinforcement learning (IRL) is introduced to recover the parameters in the cost function, system dynamics, and constraints from demonstrations. Different from existing work, where DDP was used for the inner forward problem with inequality constraints, our proposed framework uses it for efficient computation of the gradient required in the outer inverse problem with equality and inequality constraints. The equivalence between the proposed method and existing methods based on Pontryagin’s Maximum Principle (PMP) is established. More importantly, using this DDP-based IRL with an open-loop loss function, a closed-loop IRL framework is presented. In this framework, a loss function is proposed to capture the closed-loop nature of demonstrations. It is shown to be better than the commonly used open-loop loss function. We show that the closed-loop IRL framework reduces to a constrained inverse optimal control problem under certain assumptions. Under these assumptions and a rank condition, it is proven that the learning parameters can be recovered from the demonstration data. The proposed framework is extensively evaluated through four numerical robot examples and one real-world quadrotor system. The experiments validate the theoretical results and illustrate the practical relevance of the approach.

arxiv情報

著者 Kun Cao,Xinhang Xu,Wanxin Jin,Karl H. Johansson,Lihua Xie
発行日 2024-07-29 11:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC パーマリンク