P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders

要約

3D の事前トレーニングは 3D 認識タスクに不可欠です。
ただし、クリーンな 3D データを収集することが難しいため、3D 事前トレーニングは常にデータ スケーリングの課題に直面していました。
この研究では、限られたラベル付きデータと大量のラベルなしデータを活用した半教師あり学習に触発され、実際の 3D データと大規模な画像から抽出された擬似 3D データを利用した新しい自己教師あり事前トレーニング フレームワークを提案します。
深度推定モデル。
もう 1 つの課題は効率にあります。
Point-BERT や Point-MAE などの以前の方法では、k 個の最近傍を使用して 3D トークンを埋め込み、二次時間計算量を必要としました。
このような大量のデータを効率的に事前トレーニングするために、線形時間複雑さのトークン埋め込み戦略とトレーニング効率の高い 2D 再構成ターゲットを提案します。
私たちの手法は、高い事前トレーニングと下流の微調整効率を維持しながら、3D 分類と少数ショット学習で最先端のパフォーマンスを実現します。

要約(オリジナル)

3D pre-training is crucial to 3D perception tasks. However, limited by the difficulties in collecting clean 3D data, 3D pre-training consistently faced data scaling challenges. Inspired by semi-supervised learning leveraging limited labeled data and a large amount of unlabeled data, in this work, we propose a novel self-supervised pre-training framework utilizing the real 3D data and the pseudo-3D data lifted from images by a large depth estimation model. Another challenge lies in the efficiency. Previous methods such as Point-BERT and Point-MAE, employ k nearest neighbors to embed 3D tokens, requiring quadratic time complexity. To efficiently pre-train on such a large amount of data, we propose a linear-time-complexity token embedding strategy and a training-efficient 2D reconstruction target. Our method achieves state-of-the-art performance in 3D classification and few-shot learning while maintaining high pre-training and downstream fine-tuning efficiency.

arxiv情報

著者 Xuechao Chen,Ying Chen,Jialin Li,Qiang Nie,Yong Liu,Qixing Huang,Yang Li
発行日 2024-08-19 13:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク