NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

要約

ヒューマノイドロボット、4倍、動物など、多様で型破りな形態学を介して身体的にもっともらしい運動能力を獲得することは、キャラクターのシミュレーションとロボット工学を進めるために不可欠です。
強化学習(RL)などの従来の方法はタスクおよび身体固有であり、広範な報酬機能エンジニアリングを必要とし、一般化しないでください。
模倣学習は代替品を提供しますが、高品質の専門家デモンストレーションに大きく依存しています。
一方、ビデオ拡散モデルは、人間からアリまで、さまざまな形態学の現実的なビデオを生成することができます。
この機能を活用して、2D生成されたビデオから3Dモータースキルを学習するスキル獲得のためのデータに依存しないアプローチを提案し、型破りで非人間的なフォームに一般化する機能を備えています。
具体的には、ビデオ埋め込み間のペアワイズ距離を計算することにより、ビデオベースの比較のためにビジョン変圧器を活用することにより、模倣学習プロセスを導きます。
ビデオエンコード距離に加えて、ガイダンス報酬として、セグメント化されたビデオフレーム間の計算された類似性も使用します。
独自のボディ構成を含む移動タスクに関する方法を検証します。
ヒューマノイドロボットの移動タスクでは、3Dモーションキャプチャデータでトレーニングされたベースラインを「非データ模倣学習」(nil)よりも優れていることを示します。
私たちの結果は、物理的にもっともらしいスキル学習のための生成ビデオモデルを多様な形態学を使用して活用し、データ収集を模倣学習のためにデータ生成に効果的に置き換える可能性を強調しています。

要約(オリジナル)

Acquiring physically plausible motor skills across diverse and unconventional morphologies-including humanoid robots, quadrupeds, and animals-is essential for advancing character simulation and robotics. Traditional methods, such as reinforcement learning (RL) are task- and body-specific, require extensive reward function engineering, and do not generalize well. Imitation learning offers an alternative but relies heavily on high-quality expert demonstrations, which are difficult to obtain for non-human morphologies. Video diffusion models, on the other hand, are capable of generating realistic videos of various morphologies, from humans to ants. Leveraging this capability, we propose a data-independent approach for skill acquisition that learns 3D motor skills from 2D-generated videos, with generalization capability to unconventional and non-human forms. Specifically, we guide the imitation learning process by leveraging vision transformers for video-based comparisons by calculating pair-wise distance between video embeddings. Along with video-encoding distance, we also use a computed similarity between segmented video frames as a guidance reward. We validate our method on locomotion tasks involving unique body configurations. In humanoid robot locomotion tasks, we demonstrate that ‘No-data Imitation Learning’ (NIL) outperforms baselines trained on 3D motion-capture data. Our results highlight the potential of leveraging generative video models for physically plausible skill learning with diverse morphologies, effectively replacing data collection with data generation for imitation learning.

arxiv情報

著者 Mert Albaba,Chenhao Li,Markos Diomataris,Omid Taheri,Andreas Krause,Michael Black
発行日 2025-03-13 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク