NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

要約

ニューラル フィールドは、セマンティクス、幾何学、ダイナミクスの推論など、3D 視覚世界を理解する能力があるため、コンピューター ビジョンやロボット工学に優れています。
2D 画像から 3D シーンを高密度に表現するニューラル フィールドの機能を考慮すると、特にマスクされたオートエンコーダーを使用して、自己教師ありの事前トレーニングを拡張して、ポーズをとった RGB 画像から効果的な 3D 表現を生成できるかという質問をします。
トランスフォーマーを新しいデータ モダリティに拡張するという驚くべき成功により、当社では NeRF の独自の定式化に適した標準 3D ビジョン トランスフォーマーを採用しています。
NeRF のボリューム グリッドをトランスフォーマーへの高密度の入力として活用し、情報密度が不均一で表現が不規則な点群などの他の 3D 表現と対比させます。
NeRF などの暗黙的な表現にマスクされたオートエンコーダを適用するのは難しいため、サンプリングにカメラの軌跡を使用することで、ドメイン全体でシーンを正規化する明示的な表現を抽出することを選択します。
私たちの目標は、NeRF の放射輝度と密度グリッドからランダム パッチをマスクし、標準の 3D Swin Transformer を使用してマスクされたパッチを再構築することによって可能になります。
そうすることで、モデルは完全なシーンの意味構造と空間構造を学習できます。
私たちは、合計 180 万枚を超える画像に及ぶ、私たちが提案する精選されたポーズ付き RGB データに基づいて、この表現を大規模に事前トレーニングします。
事前トレーニングが完了すると、エンコーダーは効果的な 3D 転移学習に使用されます。
NeRF 用の新しい自己監視型事前トレーニングである NeRF-MAE は、非常にうまくスケールし、さまざまな困難な 3D タスクのパフォーマンスを向上させます。
NeRF-MAE は、ラベルなしのポーズ済み 2D データを事前トレーニングに利用することで、Front3D および ScanNet データセットでの自己教師あり 3D 事前トレーニングおよび NeRF シーン理解ベースラインを大幅に上回り、3D オブジェクト検出で 20% AP50 以上、8% AP25 以上の絶対パフォーマンス向上を実現しました。

要約(オリジナル)

Neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely representing a 3D scene from 2D images, we ask the question: Can we scale their self-supervised pretraining, specifically using masked autoencoders, to generate effective 3D representations from posed RGB images. Owing to the astounding success of extending transformers to novel data modalities, we employ standard 3D Vision Transformers to suit the unique formulation of NeRFs. We leverage NeRF’s volumetric grid as a dense input to the transformer, contrasting it with other 3D representations such as pointclouds where the information density can be uneven, and the representation is irregular. Due to the difficulty of applying masked autoencoders to an implicit representation, such as NeRF, we opt for extracting an explicit representation that canonicalizes scenes across domains by employing the camera trajectory for sampling. Our goal is made possible by masking random patches from NeRF’s radiance and density grid and employing a standard 3D Swin Transformer to reconstruct the masked patches. In doing so, the model can learn the semantic and spatial structure of complete scenes. We pretrain this representation at scale on our proposed curated posed-RGB data, totaling over 1.8 million images. Once pretrained, the encoder is used for effective 3D transfer learning. Our novel self-supervised pretraining for NeRFs, NeRF-MAE, scales remarkably well and improves performance on various challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining, NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF scene understanding baselines on Front3D and ScanNet datasets with an absolute performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.

arxiv情報

著者 Muhammad Zubair Irshad,Sergey Zakharov,Vitor Guizilini,Adrien Gaidon,Zsolt Kira,Rares Ambrus
発行日 2024-07-18 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク