要約
複数のタスクをこなすジェネラリストな具現化エージェントの学習には、主にアクションラベル付けされたロボットデータセットの不足に起因する課題がある。対照的に、膨大な量の人間の動画が存在し、複雑なタスクや物理世界とのインタラクションを捉えている。アクションのない人間のビデオを事前学習に利用し、限られたロボットのデモンストレーションを通じて、ロボットの方針学習を促進するために知識を伝達する有望な展望が生まれる。しかし、人間とロボットの間には領域的な隔たりがあるため、これは依然として難題である。さらに、人間の動画はノイズが多く、マルチモーダルなデータ構造であるため、動的な世界を表す有用な情報を抽出することは困難である。本論文では、これらの課題に取り組むための新しいフレームワークを紹介する。このフレームワークは、人間の動画に対する生成的な事前学習と、少数のアクションラベル付きロボット動画に対するポリシーの微調整を組み合わせるために、統一された離散拡散を活用する。まず、人間とロボットの動画を統一された動画トークンに圧縮することから始める。事前学習段階では、潜在空間における将来のビデオ・トークンを予測するために、マスク・アンド・置換拡散戦略を持つ離散拡散モデルを採用する。微調整段階では、限られたロボットデータセットで低レベルの行動学習を導くために、想像された未来のビデオを利用する。実験により、本手法が、プランニングのために忠実度の高い未来映像を生成し、従来の最先端アプローチと比較して、優れた性能で微調整されたポリシーを強化することが実証された。プロジェクトのウェブサイトはhttps://video-diff.github.io/。
要約(オリジナル)
Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.
arxiv情報
著者 | Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li |
発行日 | 2024-10-03 15:07:52+00:00 |
arxivサイト | arxiv_id(pdf) |