PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders

要約

マスクされたオートエンコーダは、点群の自己教師あり学習において広く研究されており、点群は一般に可視部分とマスクされた部分に分割されます。
これらの方法には通常、可視パッチ (正規化) と対応するパッチの中心 (位置) を入力として受け入れるエンコーダが含まれ、デコーダはエンコーダの出力とマスクされた部分の中心 (位置) を受け入れて、マスクされたパッチ内の各点を再構成します。
その後、事前トレーニングされたエンコーダーが下流のタスクに使用されます。
この論文では、エンコーダからの情報なしでマスクされたパッチの中心をデコーダに直接供給しても、デコーダは良好に再構築されるという、動機付けとなる経験的結果を示します。
言い換えれば、パッチの中心が重要であり、再構成の目的は必ずしもエンコーダの表現に依存しないため、エンコーダが意味表現を学習することができなくなります。
この重要な観察に基づいて、我々は、シンプルでありながら効果的な方法、すなわち、ポイント マスク オートエンコーダーの中心を予測する方法 (PCP-MAE) を提案します。これは、モデルが重要な中心を予測し、予測された中心を使用して直接提供された中心を置き換えることを学習するように導きます。
センター。
具体的には、中心を予測するための追加のクロスアテンションを備えた元のエンコーダとパラメータを共有する予測中心モジュール (PCM) を提案します。
私たちの方法は他の代替方法と比較して事前トレーニング効率が高く、Point-MAE に対して大幅な改善を達成しており、特に ScanObjectNN の 3 つのバリアントでは 5.50%、6.03%、および 5.17% 優れています。
コードは公開されます。

要約(オリジナル)

Masked autoencoder has been widely explored in point cloud self-supervised learning, whereby the point cloud is generally divided into visible and masked parts. These methods typically include an encoder accepting visible patches (normalized) and corresponding patch centers (position) as input, with the decoder accepting the output of the encoder and the centers (position) of the masked parts to reconstruct each point in the masked patches. Then, the pre-trained encoders are used for downstream tasks. In this paper, we show a motivating empirical result that when directly feeding the centers of masked patches to the decoder without information from the encoder, it still reconstructs well. In other words, the centers of patches are important and the reconstruction objective does not necessarily rely on representations of the encoder, thus preventing the encoder from learning semantic representations. Based on this key observation, we propose a simple yet effective method, i.e., learning to Predict Centers for Point Masked AutoEncoders (PCP-MAE) which guides the model to learn to predict the significant centers and use the predicted centers to replace the directly provided centers. Specifically, we propose a Predicting Center Module (PCM) that shares parameters with the original encoder with extra cross-attention to predict centers. Our method is of high pre-training efficiency compared to other alternatives and achieves great improvement over Point-MAE, particularly outperforming it by 5.50%, 6.03%, and 5.17% on three variants of ScanObjectNN. The code will be made publicly available.

arxiv情報

著者 Xiangdong Zhang,Shaofeng Zhang,Junchi Yan
発行日 2024-08-16 13:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク