要約
最近の作品は、マスクされた自動エンコーダー(MAE)を使用したエゴセントリックデータセットの視覚的な前脱出が、下流のロボットタスクの一般化を改善できることを示しています。
ただし、これらのアプローチは2D画像でのみ前提となりますが、多くのロボットアプリケーションでは3Dシーンの理解が必要です。
この作業では、3D-MVPを提案します。これは、マスクされた自動エンコーダーを使用した3Dマルチビュートレイニングの新しいアプローチです。
マルチビュートランスを使用して3Dシーンを理解し、グリッパーポーズアクションを予測するロボットビュートランス(RVT)を活用します。
RVTのマルチビュートランスを視覚エンコーダーとアクションデコーダーに分割し、OBJAVerseなどの大規模な3Dデータセットでマスクされた自動エンコードを使用して視覚エンコーダを前処理します。
一連の仮想ロボット操作タスクで3D-MVPを評価し、ベースライン上のパフォーマンスの向上を示します。
我々の結果は、3Dを認識している前orainingが、ビジョンベースのロボット操作ポリシーの一般化を改善するための有望なアプローチであることを示唆しています。
プロジェクトサイト:https://jasonqsy.github.io/3dmvp
要約(オリジナル)
Recent works have shown that visual pretraining on egocentric datasets using masked autoencoders (MAE) can improve generalization for downstream robotics tasks. However, these approaches pretrain only on 2D images, while many robotics applications require 3D scene understanding. In this work, we propose 3D-MVP, a novel approach for 3D Multi-View Pretraining using masked autoencoders. We leverage Robotic View Transformer (RVT), which uses a multi-view transformer to understand the 3D scene and predict gripper pose actions. We split RVT’s multi-view transformer into visual encoder and action decoder, and pretrain its visual encoder using masked autoencoding on large-scale 3D datasets such as Objaverse. We evaluate 3D-MVP on a suite of virtual robot manipulation tasks and demonstrate improved performance over baselines. Our results suggest that 3D-aware pretraining is a promising approach to improve generalization of vision-based robotic manipulation policies. Project site: https://jasonqsy.github.io/3DMVP
arxiv情報
著者 | Shengyi Qian,Kaichun Mo,Valts Blukis,David F. Fouhey,Dieter Fox,Ankit Goyal |
発行日 | 2025-03-24 00:39:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google