Contrast, Imitate, Adapt: Learning Robotic Skills From Raw Human Videos

要約

人間の生のビデオからロボットのスキルを学習することは、依然として簡単な課題ではありません。
以前の研究では、ビデオからの行動の複製や報酬関数の学習を活用することで、この問題に取り組みました。
その優れたパフォーマンスにもかかわらず、ロボットのアクションの必要性、人間とロボットのビデオ間の一貫した視点と同様のレイアウトの要件、サンプル効率の低さなど、いくつかの問題が発生する可能性があります。
この目的を達成するために、私たちの重要な洞察は、ビデオを対比させることでタスク事前分布を学習し、ビデオの軌跡を模倣することでアクション事前分布を学習し、タスク事前分布を利用して軌跡を新しいシナリオに適応させるようにガイドすることです。
私たちは、Contrast-Imitate-Adapt (CIA) と呼ばれる 3 段階のスキル学習フレームワークを提案します。
インタラクションを意識したアラインメントトランスフォーマーは、ビデオペアを時間的に位置合わせすることによってタスクの事前分布を学習するために提案されています。
次に、軌道生成モデルを使用してアクション事前分布を学習します。
人間のビデオとは異なる新しいシナリオに適応するために、反転インタラクション法は、粗い軌道を初期化し、制限されたインタラクションによって軌道を調整するように設計されています。
さらに、CIA は、相互作用のセキュリティとサンプル効率のために、軌跡の意味論的な方向に基づいた最適化手法を導入しています。
IAAformer によって計算されたアライメント距離が報酬として使用されます。
私たちは 6 つの現実世界の日常タスクで CIA を評価し、タスクの成功率と、多様な新しいシナリオのレイアウトとオブジェクト インスタンスへの一般化の点で、CIA が以前の最先端の研究よりも大幅に優れていることを実証しました。

要約(オリジナル)

Learning robotic skills from raw human videos remains a non-trivial challenge. Previous works tackled this problem by leveraging behavior cloning or learning reward functions from videos. Despite their remarkable performances, they may introduce several issues, such as the necessity for robot actions, requirements for consistent viewpoints and similar layouts between human and robot videos, as well as low sample efficiency. To this end, our key insight is to learn task priors by contrasting videos and to learn action priors through imitating trajectories from videos, and to utilize the task priors to guide trajectories to adapt to novel scenarios. We propose a three-stage skill learning framework denoted as Contrast-Imitate-Adapt (CIA). An interaction-aware alignment transformer is proposed to learn task priors by temporally aligning video pairs. Then a trajectory generation model is used to learn action priors. To adapt to novel scenarios different from human videos, the Inversion-Interaction method is designed to initialize coarse trajectories and refine them by limited interaction. In addition, CIA introduces an optimization method based on semantic directions of trajectories for interaction security and sample efficiency. The alignment distances computed by IAAformer are used as the rewards. We evaluate CIA in six real-world everyday tasks, and empirically demonstrate that CIA significantly outperforms previous state-of-the-art works in terms of task success rate and generalization to diverse novel scenarios layouts and object instances.

arxiv情報

著者 Zhifeng Qian,Mingyu You,Hongjun Zhou,Xuanhui Xu,Hao Fu,Jinzhe Xue,Bin He
発行日 2024-08-10 08:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク