要約
3Dの事前トレーニングは、3D認識タスクを進めるために極めて重要です。
ただし、クリーンな3Dデータの希少性は、3Dプリトレーニングの取り組みをスケーリングするために大きな課題をもたらします。
限られたラベル付きデータと豊富な非標識データを効果的に組み合わせた半監視学習からインスピレーションを得て、革新的な自己監視前のトレーニング前のフレームワークを導入します。
このフレームワークは、堅牢な深度推定モデルを使用して画像から生成された本物の3Dデータと擬似3Dデータの両方を活用しています。
もう1つの重要な課題は、トレーニング前のプロセスの効率です。
Point-BertやPoint-Maeなどの既存のアプローチは、3Dトークン埋め込みにK-nearest Neighborsを利用して、2次時間の複雑さをもたらします。
これに対処するために、トレーニング効率の良い2D再構成ターゲットと相まって、線形時間の複雑さを備えた新しいトークン埋め込み戦略を提案します。
私たちの方法は、3D分類、検出、少数の学習で最先端のパフォーマンスを達成するだけでなく、トレーニング前および下流の微調整プロセスの両方で高い効率を保証します。
要約(オリジナル)
Pre-training in 3D is pivotal for advancing 3D perception tasks. However, the scarcity of clean 3D data poses significant challenges for scaling 3D pre-training efforts. Drawing inspiration from semi-supervised learning, which effectively combines limited labeled data with abundant unlabeled data, we introduce an innovative self-supervised pre-training framework. This framework leverages both authentic 3D data and pseudo-3D data generated from images using a robust depth estimation model. Another critical challenge is the efficiency of the pre-training process. Existing approaches, such as Point-BERT and Point-MAE, utilize k-nearest neighbors for 3D token embedding, resulting in quadratic time complexity. To address this, we propose a novel token embedding strategy with linear time complexity, coupled with a training-efficient 2D reconstruction target. Our method not only achieves state-of-the-art performance in 3D classification, detection, and few-shot learning but also ensures high efficiency in both pre-training and downstream fine-tuning processes.
arxiv情報
著者 | Xuechao Chen,Ying Chen,Jialin Li,Qiang Nie,Hanqiu Deng,Yong Liu,Qixing Huang,Yang Li |
発行日 | 2025-03-12 14:13:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google