要約
視覚的なロボット操作の研究や応用では、世界をよりよく認識するために複数のカメラまたはビューが使用されることがよくあります。
豊富なマルチビュー データを他にどのように活用できるでしょうか?
この論文では、多視点データを使用して適切な表現を学習し、それらを視覚的なロボット操作に利用する方法を調査します。
具体的には、ランダムにマスクされた視点のピクセルを再構成するマルチビューのマスクされたオートエンコーダーをトレーニングし、オートエンコーダーからの表現に基づいて動作する世界モデルを学習します。
表現学習のための補助カメラを使用したマルチビュー制御やシングルビュー制御など、さまざまなシナリオでこの方法の有効性を実証します。
また、複数のランダム化された視点でトレーニングされたマルチビュー マスク オートエンコーダにより、強力な視点ランダム化を使用してポリシーをトレーニングし、そのポリシーを転送して、カメラのキャリブレーションや適応手順なしで実際のロボットのタスクを解決できることも示します。
ビデオデモは https://sites.google.com/view/mv-mwm でご覧いただけます。
要約(オリジナル)
Visual robotic manipulation research and applications often use multiple cameras, or views, to better perceive the world. How else can we utilize the richness of multi-view data? In this paper, we investigate how to learn good representations with multi-view data and utilize them for visual robotic manipulation. Specifically, we train a multi-view masked autoencoder which reconstructs pixels of randomly masked viewpoints and then learn a world model operating on the representations from the autoencoder. We demonstrate the effectiveness of our method in a range of scenarios, including multi-view control and single-view control with auxiliary cameras for representation learning. We also show that the multi-view masked autoencoder trained with multiple randomized viewpoints enables training a policy with strong viewpoint randomization and transferring the policy to solve real-robot tasks without camera calibration and an adaptation procedure. Video demonstrations are available at: https://sites.google.com/view/mv-mwm.
arxiv情報
著者 | Younggyo Seo,Junsu Kim,Stephen James,Kimin Lee,Jinwoo Shin,Pieter Abbeel |
発行日 | 2023-05-31 08:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google