要約
我々は、実世界のタスクを実行する下流ポリシーの訓練に、事前に訓練された視覚表現(PVR)を使用することに関する大規模な実証研究を発表する。我々の研究は、5つの異なるPVR、2つの異なるポリシー学習パラダイム(模倣学習と強化学習)、5つの異なる操作タスクと屋内ナビゲーションタスクに対する3つの異なるロボットに及ぶ。この取り組みから、我々は3つの洞察を得ることができる:1)シミュレーションにおけるPVRの性能傾向は、現実世界における傾向を概ね示している。2)PVRを使用することで、屋内ImageNavでこれまでにない結果(現実世界における保持されたシーンへのゼロショット転送)が得られる。詳細とビジュアルについては、プロジェクトのウェブサイトをご覧ください。
要約(オリジナル)
We present a large empirical investigation on the use of pre-trained visual representations (PVRs) for training downstream policies that execute real-world tasks. Our study spans five different PVRs, two different policy-learning paradigms (imitation and reinforcement learning), and three different robots for 5 distinct manipulation and indoor navigation tasks. From this effort, we can arrive at three insights: 1) the performance trends of PVRs in the simulation are generally indicative of their trends in the real world, 2) the use of PVRs enables a first-of-its-kind result with indoor ImageNav (zero-shot transfer to a held-out scene in the real world), and 3) the benefits from variations in PVRs, primarily data-augmentation and fine-tuning, also transfer to the real-world performance. See project website for additional details and visuals.
arxiv情報
著者 | Sneha Silwal,Karmesh Yadav,Tingfan Wu,Jay Vakil,Arjun Majumdar,Sergio Arnaud,Claire Chen,Vincent-Pierre Berges,Dhruv Batra,Aravind Rajeswaran,Mrinal Kalakrishnan,Franziska Meier,Oleksandr Maksymets |
発行日 | 2023-10-03 17:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |