Real-World Robot Learning with Masked Visual Pre-training

要約

本研究では、実世界のロボットタスクのための、多様な野生のビデオからの画像に対する自己教師付き視覚的事前学習を探求している。先行研究と同様に、我々の視覚表現はマスクドオートエンコーダ(MAE)によって事前学習され、凍結され、その後、学習可能な制御モジュールに渡される。先行研究とは異なり、我々は事前学習された表現が実世界のロボットタスクと実施形態の範囲に渡って有効であることを示す。私たちのエンコーダは、CLIP(最大75%)、教師ありImageNet事前学習(最大81%)、ゼロからの学習(最大81%)を一貫して上回ることがわかりました。最後に、307Mパラメータの視覚変換器を、インターネットや自己中心的なビデオからの450万画像の膨大なコレクションで訓練し、ロボット学習のための視覚的事前訓練のスケーリングの利点を明確に示す。

要約(オリジナル)

In this work, we explore self-supervised visual pre-training on images from diverse, in-the-wild videos for real-world robotic tasks. Like prior work, our visual representations are pre-trained via a masked autoencoder (MAE), frozen, and then passed into a learnable control module. Unlike prior work, we show that the pre-trained representations are effective across a range of real-world robotic tasks and embodiments. We find that our encoder consistently outperforms CLIP (up to 75%), supervised ImageNet pre-training (up to 81%), and training from scratch (up to 81%). Finally, we train a 307M parameter vision transformer on a massive collection of 4.5M images from the Internet and egocentric videos, and demonstrate clearly the benefits of scaling visual pre-training for robot learning.

arxiv情報

著者 Ilija Radosavovic,Tete Xiao,Stephen James,Pieter Abbeel,Jitendra Malik,Trevor Darrell
発行日 2022-10-06 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク