Latent Diffusion Planning for Imitation Learning

要約

模倣学習における最近の進捗状況は、複雑な視覚運動タスク、マルチモーダル分布、および大規模なデータセットにスケーリングするポリシーアーキテクチャによって有効になっています。
ただし、これらの方法は、多くの場合、大量の専門家のデモンストレーションから学習することに依存しています。
これらの欠点に対処するために、潜在的な拡散計画(LDP)、アクションフリーのデモンストレーションを活用できるプランナーで構成されるモジュールアプローチ、および学習した潜在スペースを操作する潜在的なデータを活用できる逆ダイナミクスモデルを提案します。
まず、変動自動エンコーダーを介してコンパクトな潜在スペースを学習し、画像ベースのドメインで将来の状態を効果的に予測できるようにします。
次に、拡散目標を持つプランナーと逆ダイナミクスモデルをトレーニングします。
計画をアクション予測から分離することにより、LDPは、最適でないデータの密度の高い監督シグナルから恩恵を受けることができます。
シミュレートされた視覚的ロボット操作タスクでは、LDPはこのような追加データを活用できないため、最先端の模倣学習アプローチよりも優れています。

要約(オリジナル)

Recent progress in imitation learning has been enabled by policy architectures that scale to complex visuomotor tasks, multimodal distributions, and large datasets. However, these methods often rely on learning from large amount of expert demonstrations. To address these shortcomings, we propose Latent Diffusion Planning (LDP), a modular approach consisting of a planner which can leverage action-free demonstrations, and an inverse dynamics model which can leverage suboptimal data, that both operate over a learned latent space. First, we learn a compact latent space through a variational autoencoder, enabling effective forecasting of future states in image-based domains. Then, we train a planner and an inverse dynamics model with diffusion objectives. By separating planning from action prediction, LDP can benefit from the denser supervision signals of suboptimal and action-free data. On simulated visual robotic manipulation tasks, LDP outperforms state-of-the-art imitation learning approaches, as they cannot leverage such additional data.

arxiv情報

著者 Amber Xie,Oleh Rybkin,Dorsa Sadigh,Chelsea Finn
発行日 2025-04-23 17:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク