Cost Function Estimation Using Inverse Reinforcement Learning with Minimal Observations

要約

連続空間で最適なコスト関数を推測するために、反復的な逆補強学習アルゴリズムを提示します。
一般的な最大エントロピー基準に基づいて、このアプローチは体重改善ステップを繰り返し見つけ、学習されたコスト関数機能が実証された軌道機能と同様のままであることを保証する適切なステップサイズを見つける方法を提案します。
同様のアプローチとは対照的に、私たちのアルゴリズムは、パーティション関数の各観測の有効性を個別に調整でき、大規模なサンプルセットは必要ありません。
ランダムサンプリングの代わりに最適な制御問題を解決することにより、サンプルの軌跡を生成し、より有益な軌跡につながります。
私たちの方法のパフォーマンスは、2つの最先端のアルゴリズムと比較され、いくつかのシミュレートされた環境でその利点を実証します。

要約(オリジナル)

We present an iterative inverse reinforcement learning algorithm to infer optimal cost functions in continuous spaces. Based on a popular maximum entropy criteria, our approach iteratively finds a weight improvement step and proposes a method to find an appropriate step size that ensures learned cost function features remain similar to the demonstrated trajectory features. In contrast to similar approaches, our algorithm can individually tune the effectiveness of each observation for the partition function and does not need a large sample set, enabling faster learning. We generate sample trajectories by solving an optimal control problem instead of random sampling, leading to more informative trajectories. The performance of our method is compared to two state of the art algorithms to demonstrate its benefits in several simulated environments.

arxiv情報

著者 Sarmad Mehrdad,Avadesh Meduri,Ludovic Righetti
発行日 2025-05-13 14:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク