Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation

要約

ロボットは 3D 環境を認識し、空間関係を推論し、複雑な空間構成と対話する必要があるため、3D 幾何学情報は操作タスクに不可欠です。
最近の研究は、3D 特徴の明示的な抽出にますます重点を置いていますが、大規模なロボット 3D データの不足や空間ジオメトリの潜在的な損失などの課題に依然として直面しています。
これらの制限に対処するために、私たちは Lift3D フレームワークを提案します。これは、暗黙的および明示的な 3D ロボット表現を使用して 2D 基礎モデルを段階的に強化し、堅牢な 3D 操作ポリシーを構築します。
具体的には、まず、タスク関連のアフォーダンス パッチをマスクして深度情報を再構築するタスク認識マスク オートエンコーダーを設計し、2D 基盤モデルの暗黙的な 3D ロボット表現を強化します。
自己監視型微調整の後、入力 3D 点と 2D モデルの位置埋め込みの間の位置マッピングを確立する 2D モデルリフティング戦略を導入します。
Lift3D は、マッピングに基づいて 2D 基礎モデルを利用して点群データを直接エンコードし、大規模な事前トレーニングされた知識を活用して、空間情報の損失を最小限に抑えながら明示的な 3D ロボット表現を構築します。
実験では、Lift3D は、いくつかのシミュレーション ベンチマークと現実世界のシナリオにわたって、以前の最先端の手法を常に上回っています。

要約(オリジナル)

3D geometric information is essential for manipulation tasks, as robots need to perceive the 3D environment, reason about spatial relationships, and interact with intricate spatial configurations. Recent research has increasingly focused on the explicit extraction of 3D features, while still facing challenges such as the lack of large-scale robotic 3D data and the potential loss of spatial geometry. To address these limitations, we propose the Lift3D framework, which progressively enhances 2D foundation models with implicit and explicit 3D robotic representations to construct a robust 3D manipulation policy. Specifically, we first design a task-aware masked autoencoder that masks task-relevant affordance patches and reconstructs depth information, enhancing the 2D foundation model’s implicit 3D robotic representation. After self-supervised fine-tuning, we introduce a 2D model-lifting strategy that establishes a positional mapping between the input 3D points and the positional embeddings of the 2D model. Based on the mapping, Lift3D utilizes the 2D foundation model to directly encode point cloud data, leveraging large-scale pretrained knowledge to construct explicit 3D robotic representations while minimizing spatial information loss. In experiments, Lift3D consistently outperforms previous state-of-the-art methods across several simulation benchmarks and real-world scenarios.

arxiv情報

著者 Yueru Jia,Jiaming Liu,Sixiang Chen,Chenyang Gu,Zhilue Wang,Longzan Luo,Lily Lee,Pengwei Wang,Zhongyuan Wang,Renrui Zhang,Shanghang Zhang
発行日 2024-11-27 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク