Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

要約

大規模なマルチタスクのロボット操作システムでは、タスクを指定するためにテキストに依存することがよくあります。
この研究では、ロボットが人間を観察することで学習できるかどうかを調査します。
そのためには、実施形態や環境の違いにもかかわらず、ロボットは人間の意図を理解し、推測されたタスクを実行する必要があります。
Vid2Robot は、操作タスクをデモンストレーションする人間のビデオを入力として受け取り、ロボットのアクションを生成する、エンドツーエンドのビデオ条件付きポリシーです。
私たちのモデルは、ビデオから人間とロボットの動作の統一された表現を学習するために、プロンプトビデオとロボットの軌跡のペアの大規模なデータセットを使用してトレーニングされています。
Vid2Robot は、ビデオ機能と現在のロボットの状態の間でクロスアテンション トランスフォーマー レイヤーを使用して、アクションを生成し、ビデオに示されているのと同じタスクを実行します。
補助的なコントラスト損失を使用して、プロンプトとロボットのビデオ表現を調整して、より良いポリシーを実現します。
私たちは現実世界のロボットで Vid2Robot を評価し、人間によるプロンプト ビデオを使用した場合に BC-Z と比較して 20% 以上の改善を観察しました。
さらに、ビデオ条件付きポリシーがプロンプトビデオ内の 1 つのオブジェクトで観察されたモーションをロボット自身の環境内の別のオブジェクトに転送できるようにする、オブジェクト間のモーション転送機能も示します。
ビデオは https://vid2robot.github.io で入手できます

要約(オリジナル)

Large-scale multi-task robotic manipulation systems often rely on text to specify the task. In this work, we explore whether a robot can learn by observing humans. To do so, the robot must understand a person’s intent and perform the inferred task despite differences in the embodiments and environments. We introduce Vid2Robot, an end-to-end video-conditioned policy that takes human videos demonstrating manipulation tasks as input and produces robot actions. Our model is trained with a large dataset of prompt video-robot trajectory pairs to learn unified representations of human and robot actions from videos. Vid2Robot uses cross-attention transformer layers between video features and the current robot state to produce the actions and perform the same task as shown in the video. We use auxiliary contrastive losses to align the prompt and robot video representations for better policies. We evaluate Vid2Robot on real-world robots and observe over 20% improvement over BC-Z when using human prompt videos. Further, we also show cross-object motion transfer ability that enables video-conditioned policies to transfer a motion observed on one object in the prompt video to another object in the robot’s own environment. Videos available at https://vid2robot.github.io

arxiv情報

著者 Vidhi Jain,Maria Attarian,Nikhil J Joshi,Ayzaan Wahid,Danny Driess,Quan Vuong,Pannag R Sanketi,Pierre Sermanet,Stefan Welker,Christine Chan,Igor Gilitschenski,Yonatan Bisk,Debidatta Dwibedi
発行日 2024-08-27 23:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク