R3M: A Universal Visual Representation for Robot Manipulation

要約

さまざまな人間のビデオ データで事前にトレーニングされた視覚的表現が、下流のロボット操作タスクのデータ効率の高い学習をどのように可能にするかを研究します。
具体的には、Ego4D ヒューマン ビデオ データセットを使用して、時間対比学習、ビデオ言語アラインメント、および L1 ペナルティを組み合わせて視覚的表現を事前トレーニングし、疎でコンパクトな表現を促進します。
結果として得られる表現、R3M は、下流のポリシー学習用の凍結された認識モジュールとして使用できます。
12 のシミュレートされたロボット操作タスクのスイート全体で、R3M はゼロからのトレーニングと比較して 20% 以上、CLIP や MoCo などの最先端の視覚的表現と比較して 10% 以上、タスクの成功を改善することがわかりました。
さらに、R3M を使用すると、Franka Emika Panda アームは、実際の散らかったアパートで、わずか 20 回のデモン​​ストレーションでさまざまな操作タスクを学習できます。
コードと事前トレーニング済みのモデルは、https://tinyurl.com/robotr3m で入手できます。

要約(オリジナル)

We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a visual representation using the Ego4D human video dataset using a combination of time-contrastive learning, video-language alignment, and an L1 penalty to encourage sparse and compact representations. The resulting representation, R3M, can be used as a frozen perception module for downstream policy learning. Across a suite of 12 simulated robot manipulation tasks, we find that R3M improves task success by over 20% compared to training from scratch and by over 10% compared to state-of-the-art visual representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika Panda arm to learn a range of manipulation tasks in a real, cluttered apartment given just 20 demonstrations. Code and pre-trained models are available at https://tinyurl.com/robotr3m.

arxiv情報

著者 Suraj Nair,Aravind Rajeswaran,Vikash Kumar,Chelsea Finn,Abhinav Gupta
発行日 2022-11-18 05:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク