要約
多数の画像データによる事前トレーニングは、堅牢な 2D 表現のデファクトになっています。
対照的に、高価なデータの取得と注釈のために、大規模な 3D データセットが不足していると、高品質の 3D 機能の学習が大幅に妨げられます。
この論文では、I2P-MAE と名付けられた Image-to-Point Masked Autoencoders を介して、2D 事前トレーニング済みモデルから優れた 3D 表現を取得するための代替手段を提案します。
自己監視型の事前トレーニングにより、十分に学習した 2D 知識を活用して 3D マスク自動エンコードをガイドします。これにより、マスクされたポイント トークンがエンコーダー/デコーダー アーキテクチャで再構築されます。
具体的には、まず既製の 2D モデルを使用して入力ポイント クラウドのマルチビュー視覚的特徴を抽出し、次に 2 種類の画像からポイントへの学習スキームを実行します。
1 つは、意味的に重要なポイント トークンをエンコーダから見えるように維持する 2D ガイド付きマスキング戦略を導入することです。
ランダム マスキングと比較して、ネットワークは重要な 3D 構造に集中し、重要な空間的キューからマスクされたトークンを回復できます。
別の例では、これらの可視トークンを強制して、デコーダの後に対応するマルチビュー 2D 機能を再構築します。
これにより、ネットワークは、豊富な画像データから学習した高レベルの 2D セマンティクスを効果的に継承して、差別的な 3D モデリングを実現できます。
画像からポイントへの事前トレーニングの助けを借りて、凍結された I2P-MAE は、微調整なしで、ModelNet40 の線形 SVM で 93.4% の精度を達成し、既存の方法の完全にトレーニングされた結果に匹敵します。
ScanObjectNN の最も困難な分割をさらに微調整することにより、I2P-MAE は最先端の 90.11% の精度を達成し、2 番目に優れた精度で +3.68% を達成し、優れた転送能力を実証しています。
コードは https://github.com/ZrrSkywalker/I2P-MAE で入手できます。
要約(オリジナル)
Pre-training by numerous image data has become de-facto for robust 2D representations. In contrast, due to the expensive data acquisition and annotation, a paucity of large-scale 3D datasets severely hinders the learning for high-quality 3D features. In this paper, we propose an alternative to obtain superior 3D representations from 2D pre-trained models via Image-to-Point Masked Autoencoders, named as I2P-MAE. By self-supervised pre-training, we leverage the well learned 2D knowledge to guide 3D masked autoencoding, which reconstructs the masked point tokens with an encoder-decoder architecture. Specifically, we first utilize off-the-shelf 2D models to extract the multi-view visual features of the input point cloud, and then conduct two types of image-to-point learning schemes on top. For one, we introduce a 2D-guided masking strategy that maintains semantically important point tokens to be visible for the encoder. Compared to random masking, the network can better concentrate on significant 3D structures and recover the masked tokens from key spatial cues. For another, we enforce these visible tokens to reconstruct the corresponding multi-view 2D features after the decoder. This enables the network to effectively inherit high-level 2D semantics learned from rich image data for discriminative 3D modeling. Aided by our image-to-point pre-training, the frozen I2P-MAE, without any fine-tuning, achieves 93.4% accuracy for linear SVM on ModelNet40, competitive to the fully trained results of existing methods. By further fine-tuning on on ScanObjectNN’s hardest split, I2P-MAE attains the state-of-the-art 90.11% accuracy, +3.68% to the second-best, demonstrating superior transferable capacity. Code will be available at https://github.com/ZrrSkywalker/I2P-MAE.
arxiv情報
著者 | Renrui Zhang,Liuhui Wang,Yu Qiao,Peng Gao,Hongsheng Li |
発行日 | 2022-12-13 17:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google