要約
ロボット操作のための統一された3Dマルチモーダル表現であるEmbodiedmaeを提示します。
現在のアプローチには、トレーニングデータセットとロボット操作タスクの間の重要なドメインギャップがあり、3D情報を効果的に組み込むことができるモデルアーキテクチャもありません。
これらの制限を克服するために、高品質の深度マップとポイントクラウドでドロイドデータセットを強化し、3D具体化されたビジョン研究の貴重なサプリメントとしてDroid-3Dを構築します。
次に、確率的マスキングとクロスモーダル融合を通じてRGB、深さ、およびポイントクラウドモダリティ全体の表現を同時に学習するマルチモーダルマスク自動エンコーダーであるEmpodiedmaeを開発します。
DROID-3DでトレーニングされたEmbodiedmaeは、70のシミュレーションタスクと2つのロボットプラットフォームでの20の実世界のロボット操作タスクにわたるトレーニング効率と最終パフォーマンスの両方で、最先端のビジョンファンデーションモデル(VFM)よりも一貫して優れています。
このモデルは、サイズで強力なスケーリング動作を示し、3D入力からの効果的なポリシー学習を促進します。
実験結果は、特に空間知覚が重要な正確な卓上操作設定で、具体化されたAIシステムの信頼できる統一された3DマルチモーダルVFMとして具体化されたものを確立します。
要約(オリジナル)
We present EmbodiedMAE, a unified 3D multi-modal representation for robot manipulation. Current approaches suffer from significant domain gaps between training datasets and robot manipulation tasks, while also lacking model architectures that can effectively incorporate 3D information. To overcome these limitations, we enhance the DROID dataset with high-quality depth maps and point clouds, constructing DROID-3D as a valuable supplement for 3D embodied vision research. Then we develop EmbodiedMAE, a multi-modal masked autoencoder that simultaneously learns representations across RGB, depth, and point cloud modalities through stochastic masking and cross-modal fusion. Trained on DROID-3D, EmbodiedMAE consistently outperforms state-of-the-art vision foundation models (VFMs) in both training efficiency and final performance across 70 simulation tasks and 20 real-world robot manipulation tasks on two robot platforms. The model exhibits strong scaling behavior with size and promotes effective policy learning from 3D inputs. Experimental results establish EmbodiedMAE as a reliable unified 3D multi-modal VFM for embodied AI systems, particularly in precise tabletop manipulation settings where spatial perception is critical.
arxiv情報
著者 | Zibin Dong,Fei Ni,Yifu Yuan,Yinchuan Li,Jianye Hao |
発行日 | 2025-05-15 09:12:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google