GeoMAE: Masked Geometric Target Prediction for Self-supervised Point Cloud Pre-Training

要約

本論文では、点群自己教師学習における基本的な疑問、すなわち、注釈のない点群から特徴を学習するために活用すべき良い信号とは何か、に取り組もうとするものである。これに答えるために、幾何学的特徴再構成に基づく点群表現学習の枠組みを紹介する。マスクドオートエンコーダ(MAE)を直接採用し、マスクされた点群から元の座標や占有率を予測するだけの最近の論文とは対照的に、我々の手法は画像と点群の違いを再検討し、点群に特有な三つの自己教師付き学習目的、すなわちセントロイド予測、正規推定、曲率予測を特定する。占有率予測と組み合わせることで、これらの4つの目的は、自明ではない自己教師付き学習タスクをもたらし、点群の微細な形状をよりよく推論するモデルを相互に促進する。まず、点群をランダムにマスクし、次にTransformerベースの点群エンコーダを実行する。次に、軽量Transformerデコーダが各ボクセル内の点の重心、法線、曲率を予測する。このTransformerエンコーダを下流のpeceptionモデルに転送し、訓練する。nuScene Datsetにおいて、我々のモデルは物体検出で3.38 mAPの向上、セグメンテーションで2.1 mIoUの向上、多物体追跡で1.7 AMOTAの向上を達成することができた。また、Waymo Open Datasetの実験も行い、同様にベースラインに対して大幅な性能向上を達成しています。

要約(オリジナル)

This paper tries to address a fundamental question in point cloud self-supervised learning: what is a good signal we should leverage to learn features from point clouds without annotations? To answer that, we introduce a point cloud representation learning framework, based on geometric feature reconstruction. In contrast to recent papers that directly adopt masked autoencoder (MAE) and only predict original coordinates or occupancy from masked point clouds, our method revisits differences between images and point clouds and identifies three self-supervised learning objectives peculiar to point clouds, namely centroid prediction, normal estimation, and curvature prediction. Combined with occupancy prediction, these four objectives yield an nontrivial self-supervised learning task and mutually facilitate models to better reason fine-grained geometry of point clouds. Our pipeline is conceptually simple and it consists of two major steps: first, it randomly masks out groups of points, followed by a Transformer-based point cloud encoder; second, a lightweight Transformer decoder predicts centroid, normal, and curvature for points in each voxel. We transfer the pre-trained Transformer encoder to a downstream peception model. On the nuScene Datset, our model achieves 3.38 mAP improvment for object detection, 2.1 mIoU gain for segmentation, and 1.7 AMOTA gain for multi-object tracking. We also conduct experiments on the Waymo Open Dataset and achieve significant performance improvements over baselines as well.

arxiv情報

著者 Xiaoyu Tian,Haoxi Ran,Yue Wang,Hang Zhao
発行日 2023-05-15 17:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク