要約
Dreamgenを紹介します。これは、神経軌道を通じて行動や環境全体で一般化するロボットポリシーをトレーニングするためのシンプルでありながら非常に効果的な4段階のパイプライン – ビデオ世界モデルから生成された合成ロボットデータです。
Dreamgenは、最新の画像からビデオへの生成モデルを活用し、ターゲットロボットの具体化に適応して、多様な環境で馴染みのあるまたは斬新なタスクのフォトリアリスティックな合成ビデオを作成します。
これらのモデルはビデオのみを生成するため、潜在的なアクションモデルまたはinversed-dynamicsモデル(IDM)のいずれかを使用して、擬似アクションシーケンスを回復します。
そのシンプルさにもかかわらず、Dreamgenは強力な行動と環境の一般化を解き放ちます。ヒューマノイドロボットは、見られた環境と目に見えない環境の両方で22の新しい動作を実行できますが、1つの環境で1つのピックアンドプレイスタスクのみからテレオ操作データを必要とします。
パイプラインを体系的に評価するために、ベンチマークのパフォーマンスとダウンストリームポリシーの成功との間に強い相関関係を示すビデオ生成ベンチマークであるDreamGen Benchを紹介します。
私たちの仕事は、手動データ収集を超えてロボット学習をスケーリングするための有望な新しい軸を確立します。
要約(オリジナル)
We introduce DreamGen, a simple yet highly effective 4-stage pipeline for training robot policies that generalize across behaviors and environments through neural trajectories – synthetic robot data generated from video world models. DreamGen leverages state-of-the-art image-to-video generative models, adapting them to the target robot embodiment to produce photorealistic synthetic videos of familiar or novel tasks in diverse environments. Since these models generate only videos, we recover pseudo-action sequences using either a latent action model or an inverse-dynamics model (IDM). Despite its simplicity, DreamGen unlocks strong behavior and environment generalization: a humanoid robot can perform 22 new behaviors in both seen and unseen environments, while requiring teleoperation data from only a single pick-and-place task in one environment. To evaluate the pipeline systematically, we introduce DreamGen Bench, a video generation benchmark that shows a strong correlation between benchmark performance and downstream policy success. Our work establishes a promising new axis for scaling robot learning well beyond manual data collection.
arxiv情報
著者 | Joel Jang,Seonghyeon Ye,Zongyu Lin,Jiannan Xiang,Johan Bjorck,Yu Fang,Fengyuan Hu,Spencer Huang,Kaushil Kundalia,Yen-Chen Lin,Loic Magne,Ajay Mandlekar,Avnish Narayan,You Liang Tan,Guanzhi Wang,Jing Wang,Qi Wang,Yinzhen Xu,Xiaohui Zeng,Kaiyuan Zheng,Ruijie Zheng,Ming-Yu Liu,Luke Zettlemoyer,Dieter Fox,Jan Kautz,Scott Reed,Yuke Zhu,Linxi Fan |
発行日 | 2025-05-19 04:55:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google