Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約

複数のタスクを完了できるジェネラリストの身体化エージェントを学習するには、主にアクションラベル付きロボットデータセットの不足に起因する課題が生じます。
対照的に、複雑なタスクや物理世界とのやり取りを捉えた人間のビデオが膨大に存在します。
事前トレーニングと知識の伝達に、アクションのない人間のビデオを利用して、限られたロボットのデモンストレーションを通じてロボットポリシーの学習を促進するという有望な見通しが生まれています。
しかし、人間とロボットの間には領域のギャップがあるため、依然として課題が残っています。
さらに、人間のビデオにはノイズが多く、マルチモーダルなデータ構造があるため、動的な世界を表す有用な情報を人間のビデオから抽出することは困難です。
この論文では、これらの課題に取り組むための新しいフレームワークを紹介します。このフレームワークは、統合された離散拡散を利用して、人間のビデオでの生成的な事前トレーニングと、アクションのラベルが付けられた少数のロボットのビデオでのポリシーの微調整を組み合わせます。
まず、人間とロボットの両方のビデオを統合ビデオ トークンに圧縮します。
事前トレーニング段階では、マスクと置換の拡散戦略を備えた離散拡散モデルを採用して、潜在空間内の将来のビデオ トークンを予測します。
微調整段階では、想像された未来のビデオを利用して、限られたロボット データのセットで低レベルのアクション学習をガイドします。
実験では、私たちの方法が計画用に忠実度の高い将来のビデオを生成し、以前の最先端のアプローチと比較して、優れたパフォーマンスで微調整されたポリシーを強化することを示しています。
私たちのプロジェクトの Web サイトは https://video-diff.github.io/ から入手できます。

要約(オリジナル)

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.

arxiv情報

著者 Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li
発行日 2024-10-07 08:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク