Masked Autoencoders in 3D Point Cloud Representation Learning

要約

トランスフォーマーベースの自己教師あり表現学習メソッドは、ラベルのないデータセットから一般的な特徴を学習して、下流のタスクに有用なネットワーク初期化パラメーターを提供します。
最近、3D 点群データの局所表面パッチのマスキングに基づく自己教師あり学習は十分に研究されていません。
この論文では、自己教師あり学習のための新しい自動エンコーディング パラダイムである 3D 点群表現学習 (MAE3D と略称) におけるマスクされたオートエンコーダーを提案します。
まず入力点群をパッチに分割し、その一部をマスクしてから、パッチ埋め込みモジュールを使用してマスクされていないパッチの特徴を抽出します。
次に、パッチごとの MAE3D トランスフォーマを使用して、点群パッチの局所的特徴とパッチ間の高レベルのコンテキスト関係の両方を学習し、マスクされたパッチの潜在的な表現を完成させます。
マルチタスク損失を伴う点群再構成モジュールを使用して、結果として不完全な点群を完成させます。
ShapeNet55 で点群補完プレテキスト タスクを使用して自己教師ありの事前トレーニングを実行し、ModelNet40 と ScanObjectNN (PB\_T50\_RS、最も難しいバリアント) で事前トレーニングされたモデルを微調整します。
包括的な実験により、MAE3D によって点群パッチから抽出された局所特徴が下流の分類タスクに有益であり、最先端の手法 (それぞれ $93.4\%$ と $86.2\%$ の分類精度) を大幅に上回っていることが実証されました。

要約(オリジナル)

Transformer-based Self-supervised Representation Learning methods learn generic features from unlabeled datasets for providing useful network initialization parameters for downstream tasks. Recently, self-supervised learning based upon masking local surface patches for 3D point cloud data has been under-explored. In this paper, we propose masked Autoencoders in 3D point cloud representation learning (abbreviated as MAE3D), a novel autoencoding paradigm for self-supervised learning. We first split the input point cloud into patches and mask a portion of them, then use our Patch Embedding Module to extract the features of unmasked patches. Secondly, we employ patch-wise MAE3D Transformers to learn both local features of point cloud patches and high-level contextual relationships between patches and complete the latent representations of masked patches. We use our Point Cloud Reconstruction Module with multi-task loss to complete the incomplete point cloud as a result. We conduct self-supervised pre-training on ShapeNet55 with the point cloud completion pre-text task and fine-tune the pre-trained model on ModelNet40 and ScanObjectNN (PB\_T50\_RS, the hardest variant). Comprehensive experiments demonstrate that the local features extracted by our MAE3D from point cloud patches are beneficial for downstream classification tasks, soundly outperforming state-of-the-art methods ($93.4\%$ and $86.2\%$ classification accuracy, respectively).

arxiv情報

著者 Jincen Jiang,Xuequan Lu,Lizhi Zhao,Richard Dazeley,Meili Wang
発行日 2023-09-11 11:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク