Masked Autoencoders in 3D Point Cloud Representation Learning

要約

トランスフォーマーに基づく自己教師付き表現学習法は、ラベル付けされていないデータセットから一般的な特徴を学習し、下流のタスクに有用なネットワークの初期化パラメータを提供するものである。近年、3次元点群データに対する局所的な表面パッチのマスキングに基づく自己教師あり学習はあまり研究されていない。本論文では、自己教師あり学習のための新しい自己符号化パラダイムである、3次元点群表現学習におけるマスクドオートエンコーダ(MAE3Dと略す)を提案する。まず、入力点群をパッチに分割し、その一部をマスクする。次に、我々のパッチ埋め込みモジュールを用いて、マスクされていないパッチの特徴を抽出する。次に、パッチ単位のMAE3D変換器を用いて、点群パッチの局所的な特徴とパッチ間の高レベルな文脈的関係の両方を学習し、マスクされたパッチの潜在的な表現を完成させる。その結果、不完全な点群を補完するために、マルチタスクロスを用いた点群再構成モジュールを使用する。ShapeNet55上で点群補完プリテキストタスクを用いた自己教師付き事前学習を行い、ModelNet40とScanObjectNN (PB_T50_RS, the hardest variant)で事前学習したモデルをファインチューニングしている。MAE3Dが点群パッチから抽出した局所特徴は、下流の分類タスクに有効であることが包括的な実験により示され、最先端の手法よりも高い分類精度(それぞれ$93.4%$と$86.2%$)が得られていることが確認された。

要約(オリジナル)

Transformer-based Self-supervised Representation Learning methods learn generic features from unlabeled datasets for providing useful network initialization parameters for downstream tasks. Recently, self-supervised learning based upon masking local surface patches for 3D point cloud data has been under-explored. In this paper, we propose masked Autoencoders in 3D point cloud representation learning (abbreviated as MAE3D), a novel autoencoding paradigm for self-supervised learning. We first split the input point cloud into patches and mask a portion of them, then use our Patch Embedding Module to extract the features of unmasked patches. Secondly, we employ patch-wise MAE3D Transformers to learn both local features of point cloud patches and high-level contextual relationships between patches and complete the latent representations of masked patches. We use our Point Cloud Reconstruction Module with multi-task loss to complete the incomplete point cloud as a result. We conduct self-supervised pre-training on ShapeNet55 with the point cloud completion pre-text task and fine-tune the pre-trained model on ModelNet40 and ScanObjectNN (PB\_T50\_RS, the hardest variant). Comprehensive experiments demonstrate that the local features extracted by our MAE3D from point cloud patches are beneficial for downstream classification tasks, soundly outperforming state-of-the-art methods ($93.4\%$ and $86.2\%$ classification accuracy, respectively).

arxiv情報

著者 Jincen Jiang,Xuequan Lu,Lizhi Zhao,Richard Dazeley,Meili Wang
発行日 2022-07-04 16:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク