要約
このペーパーでは、州のみの専門家モーション軌跡を通じて、複雑で物理依存のロボットモーションポリシーを学習できるエネルギーベースの生成モデルに基づいた新しい模倣学習フレームワークを紹介します。
ノイズコンディショニングエネルギーベースのアニール報酬(近く)と呼ばれるアルゴリズムは、エキスパートのモーションデータ分布のいくつかの乱れたバージョンを構築し、除去スコアマッチングを使用してデータ分布のエネルギー関数のスムーズで明確に定義された表現を学習します。
これらの学習エネルギー関数を報酬関数として使用して、補強学習を通じて模倣ポリシーを学習することを提案します。
また、学習したエネルギー関数を徐々に切り替える戦略を提示し、学習した報酬が常に政策生成されたサンプルの多様体で明確に定義されていることを保証します。
運動や武道などの複雑なヒューマノイドタスクに関するアルゴリズムを評価し、敵対的な動き事項(AMP)のような州のみの敵対的な模倣学習アルゴリズムと比較します。
私たちのフレームワークは、敵対的な模倣学習技術の最適化の課題を避け、複数の模倣設定にわたるいくつかの定量的メトリックでAMPに匹敵する結果を生成します。
要約(オリジナル)
This paper introduces a new imitation learning framework based on energy-based generative models capable of learning complex, physics-dependent, robot motion policies through state-only expert motion trajectories. Our algorithm, called Noise-conditioned Energy-based Annealed Rewards (NEAR), constructs several perturbed versions of the expert’s motion data distribution and learns smooth, and well-defined representations of the data distribution’s energy function using denoising score matching. We propose to use these learnt energy functions as reward functions to learn imitation policies via reinforcement learning. We also present a strategy to gradually switch between the learnt energy functions, ensuring that the learnt rewards are always well-defined in the manifold of policy-generated samples. We evaluate our algorithm on complex humanoid tasks such as locomotion and martial arts and compare it with state-only adversarial imitation learning algorithms like Adversarial Motion Priors (AMP). Our framework sidesteps the optimisation challenges of adversarial imitation learning techniques and produces results comparable to AMP in several quantitative metrics across multiple imitation settings.
arxiv情報
著者 | Anish Abhijit Diwan,Julen Urain,Jens Kober,Jan Peters |
発行日 | 2025-02-12 10:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google