What do we learn from a large-scale study of pre-trained visual representations in sim and real environments?

要約

我々は、実世界のタスクを実行する下流ポリシーの訓練に、事前に訓練された視覚表現(PVR)を使用することに関する大規模な実証研究を発表する。我々の研究は、5つの異なるPVR、2つの異なるポリシー学習パラダイム(模倣学習と強化学習)、5つの異なる操作タスクと屋内ナビゲーションタスクに対する3つの異なるロボットに及ぶ。この取り組みから、我々は3つの洞察を得ることができる:1)シミュレーションにおけるPVRの性能傾向は、現実世界における傾向を概ね示している。2)PVRを使用することで、屋内ImageNavでこれまでにない結果(現実世界における保持されたシーンへのゼロショット転送)が得られる。詳細とビジュアルについては、プロジェクトのウェブサイトをご覧ください。

要約(オリジナル)

We present a large empirical investigation on the use of pre-trained visual representations (PVRs) for training downstream policies that execute real-world tasks. Our study spans five different PVRs, two different policy-learning paradigms (imitation and reinforcement learning), and three different robots for 5 distinct manipulation and indoor navigation tasks. From this effort, we can arrive at three insights: 1) the performance trends of PVRs in the simulation are generally indicative of their trends in the real world, 2) the use of PVRs enables a first-of-its-kind result with indoor ImageNav (zero-shot transfer to a held-out scene in the real world), and 3) the benefits from variations in PVRs, primarily data-augmentation and fine-tuning, also transfer to the real-world performance. See project website for additional details and visuals.

arxiv情報

著者 Sneha Silwal,Karmesh Yadav,Tingfan Wu,Jay Vakil,Arjun Majumdar,Sergio Arnaud,Claire Chen,Vincent-Pierre Berges,Dhruv Batra,Aravind Rajeswaran,Mrinal Kalakrishnan,Franziska Meier,Oleksandr Maksymets
発行日 2023-10-03 17:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T05(Secondary), 68T40, cs.AI, cs.CV, cs.LG, cs.RO, I.2.6 パーマリンク