Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes

要約

専門家のデモンストレーションから学び、複雑な動作を持つ自律システムを柔軟にプログラムしたり、エージェントの動作を予測したりすることは、特に協調制御設定において強力なツールとなります。
この問題を解決する一般的な方法は、逆強化学習 (IRL) です。IRL では、観察されるエージェント (例: 人間のデモンストレーター) が、その意図を反映し、制御アクションに通知する固有のコスト関数の最適化に従って動作すると想定されます。
このフレームワークは表現力豊かですが、計算量も多く、一般に収束保証がありません。
したがって、我々は、実証データから学習制御リアプノフ関数 (CLF) へのコスト関数推論問題を再定式化することにより、安定性が証明された新しい IRL アプローチを提案します。
関連する制御ポリシーに閉形式の式をさらに利用することで、誘導されたダイナミクスのアトラクターランドスケープを観察することで、CLF の空間を効率的に検索することができます。
逆最適 CLF の構築には、二乗和を使用し、凸最適化問題を定式化します。
CLF によって提供される最適性特性の理論的分析を提示し、シミュレーション データと現実世界のデータの両方を使用してアプローチを評価します。

要約(オリジナル)

Learning from expert demonstrations to flexibly program an autonomous system with complex behaviors or to predict an agent’s behavior is a powerful tool, especially in collaborative control settings. A common method to solve this problem is inverse reinforcement learning (IRL), where the observed agent, e.g., a human demonstrator, is assumed to behave according to the optimization of an intrinsic cost function that reflects its intent and informs its control actions. While the framework is expressive, it is also computationally demanding and generally lacks convergence guarantees. We therefore propose a novel, stability-certified IRL approach by reformulating the cost function inference problem to learning control Lyapunov functions (CLF) from demonstrations data. By additionally exploiting closed-form expressions for associated control policies, we are able to efficiently search the space of CLFs by observing the attractor landscape of the induced dynamics. For the construction of the inverse optimal CLFs, we use a Sum of Squares and formulate a convex optimization problem. We present a theoretical analysis of the optimality properties provided by the CLF and evaluate our approach using both simulated and real-world data.

arxiv情報

著者 Samuel Tesfazgi,Leonhard Sprandl,Armin Lederer,Sandra Hirche
発行日 2024-05-14 16:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク