Goal-Conditioned Imitation Learning using Score-based Diffusion Policies

要約

スコアベースの拡散モデル (SDM) に基づいた新しいポリシー表現を提案します。
新しいポリシー表現を目標条件付き模倣学習 (GCIL) の領域に適用して、大規模な未キュレーションのデータセットから報酬なしで汎用の目標指定ポリシーを学習します。
新しい目標条件付きポリシー アーキテクチャ「$\textbf{S}$c$\textbf{O}$re-based Diffusion Policies による $\textbf{BE}$havior 生成」(BESO) は、生成的なスコアベースの拡散を活用しています。
をポリシーとしてモデル化します。
BESO はスコア モデルの学習を推論サンプリング プロセスから切り離すため、他の拡散ベースのポリシーでは 30 以上のステップが必要であるのに対し、わずか 3 つのノイズ除去ステップで目標指定の動作を生成する高速サンプリング戦略が可能になります。
さらに、BESO は表現力が高く、プレイ データのソリューション空間に存在するマルチモダリティを効果的にキャプチャできます。
Latent Plans や C-Bet などの以前の方法とは異なり、BESO は、効果的な目標条件付き行動学習のための複雑な階層ポリシーや追加のクラスタリングに依存しません。
最後に、BESO を使用して、分類子を使用しないガイダンスを使用してプレイデータから目標に依存しないポリシーを学習する方法を示します。
私たちの知る限り、これは、a) このような分離された SDM に基づく動作ポリシーを表現する、b) GCIL のドメインで SDM ベースのポリシーを学習する、および c) 目標依存性と目標依存性を同時に学習する方法を提供する最初の研究です。
プレイデータからのゴールに依存しないポリシー。
私たちは詳細なシミュレーションを通じて BESO を評価し、困難なベンチマークにおいて、いくつかの最先端の目標条件付き模倣学習手法よりも一貫して優れたパフォーマンスを発揮することを示しました。
さらに、目標条件付き行動生成のための私たちの方法の有効性を実証するために、広範なアブレーション研究と実験を提供します。
デモとコードは https://intuitive-robots.github.io/beso-website/ から入手できます。

要約(オリジナル)

We propose a new policy representation based on score-based diffusion models (SDMs). We apply our new policy representation in the domain of Goal-Conditioned Imitation Learning (GCIL) to learn general-purpose goal-specified policies from large uncurated datasets without rewards. Our new goal-conditioned policy architecture ‘$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies’ (BESO) leverages a generative, score-based diffusion model as its policy. BESO decouples the learning of the score model from the inference sampling process, and, hence allows for fast sampling strategies to generate goal-specified behavior in just 3 denoising steps, compared to 30+ steps of other diffusion based policies. Furthermore, BESO is highly expressive and can effectively capture multi-modality present in the solution space of the play data. Unlike previous methods such as Latent Plans or C-Bet, BESO does not rely on complex hierarchical policies or additional clustering for effective goal-conditioned behavior learning. Finally, we show how BESO can even be used to learn a goal-independent policy from play-data using classifier-free guidance. To the best of our knowledge this is the first work that a) represents a behavior policy based on such a decoupled SDM b) learns an SDM based policy in the domain of GCIL and c) provides a way to simultaneously learn a goal-dependent and a goal-independent policy from play-data. We evaluate BESO through detailed simulation and show that it consistently outperforms several state-of-the-art goal-conditioned imitation learning methods on challenging benchmarks. We additionally provide extensive ablation studies and experiments to demonstrate the effectiveness of our method for goal-conditioned behavior generation. Demonstrations and Code are available at https://intuitive-robots.github.io/beso-website/

arxiv情報

著者 Moritz Reuss,Maximilian Li,Xiaogang Jia,Rudolf Lioutikov
発行日 2023-06-01 15:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク