RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning

要約

固定報酬の割り当ての制限と暗黙の報酬の正則化における制約のある柔軟性を克服する新しい逆補強学習(IRL)アプローチを導入します。
トレーニング中に動的に調整された2乗時間差(TD)の正規者と適応ターゲットを使用して、最大エントロピーIRLフレームワークを拡張することにより、補強学習の原則を組み込んでいる間、この方法を間接的に最適化します。
さらに、分布RLを統合して、より豊富な返品情報をキャプチャします。
私たちのアプローチは、挑戦的なムホコのタスクに関する最先端のパフォーマンスを達成し、3つのデモンストレーションでヒューマノイドタスクの専門家レベルの結果を示しています。
広範な実験とアブレーション研究は、私たちの方法の有効性を検証し、適応ターゲットに関する洞察を提供し、模倣学習におけるダイナミクスに報酬を与えます。

要約(オリジナル)

We introduce a novel Inverse Reinforcement Learning (IRL) approach that overcomes limitations of fixed reward assignments and constrained flexibility in implicit reward regularization. By extending the Maximum Entropy IRL framework with a squared temporal-difference (TD) regularizer and adaptive targets, dynamically adjusted during training, our method indirectly optimizes a reward function while incorporating reinforcement learning principles. Furthermore, we integrate distributional RL to capture richer return information. Our approach achieves state-of-the-art performance on challenging MuJoCo tasks, demonstrating expert-level results on the Humanoid task with only 3 demonstrations. Extensive experiments and ablation studies validate the effectiveness of our method, providing insights into adaptive targets and reward dynamics in imitation learning.

arxiv情報

著者 Adib Karimi,Mohammad Mehdi Ebadzadeh
発行日 2025-02-27 13:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク