要約
マスクされた自動エンコードは、画像および言語ドメインでの自己教師あり学習で大きな成功を収めています。
ただし、マスクベースの事前トレーニングは、点群の理解に対する利点をまだ示していません。これは、PointNet などの標準的なバックボーンが、トレーニング中にマスキングによって導入されたトレーニングとテストの分布の不一致を適切に処理できないことが原因である可能性があります。
この論文では、点群用の識別マスク事前トレーニング Transformer フレームワーク、MaskPoint} を提案することで、このギャップを埋めます。
重要なアイデアは、ポイント クラウドを個別の占有値 (ポイント クラウドの一部の場合は 1、そうでない場合は 0) として表現し、プロキシ タスクとして、マスクされたオブジェクト ポイントとサンプリングされたノイズ ポイントの間で単純なバイナリ分類を実行することです。
このように、私たちのアプローチは点群のポイント サンプリング分散に対してロバストであり、豊富な表現の学習を容易にします。
事前トレーニング済みのモデルを、3D 形状の分類、セグメンテーション、実際のオブジェクトの検出など、いくつかのダウンストリーム タスクにわたって評価し、最先端の結果を示しながら、事前トレーニングの速度を大幅に向上させます (例: ScanNet では 4.1x)。
以前の最先端の Transformer ベースライン。
コードは https://github.com/haotian-liu/MaskPoint で入手できます。
要約(オリジナル)
Masked autoencoding has achieved great success for self-supervised learning in the image and language domains. However, mask based pretraining has yet to show benefits for point cloud understanding, likely due to standard backbones like PointNet being unable to properly handle the training versus testing distribution mismatch introduced by masking during training. In this paper, we bridge this gap by proposing a discriminative mask pretraining Transformer framework, MaskPoint}, for point clouds. Our key idea is to represent the point cloud as discrete occupancy values (1 if part of the point cloud; 0 if not), and perform simple binary classification between masked object points and sampled noise points as the proxy task. In this way, our approach is robust to the point sampling variance in point clouds, and facilitates learning rich representations. We evaluate our pretrained models across several downstream tasks, including 3D shape classification, segmentation, and real-word object detection, and demonstrate state-of-the-art results while achieving a significant pretraining speedup (e.g., 4.1x on ScanNet) compared to the prior state-of-the-art Transformer baseline. Code is available at https://github.com/haotian-liu/MaskPoint.
arxiv情報
著者 | Haotian Liu,Mu Cai,Yong Jae Lee |
発行日 | 2022-08-01 17:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google