Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds


この研究では、Voxel-MAE と呼ばれる大規模な点群を事前トレーニングするためのマスク ボクセル オートエンコーダ ネットワークを提案します。
このシンプルだが効果的な戦略により、ネットワークはオブジェクトの形状をボクセル認識できるようになり、3D オブジェクト検出などのダウンストリーム タスクのパフォーマンスが向上します。
ボクセル-MAE は、マスキング率が 90% であっても、大規模な点群の高い空間冗長性の代表的な特徴を学習できます。
また、教師なしドメイン適応タスクに対する Voxel-MAE の有効性を検証し、Voxel-MAE の一般化能力を証明します。
Voxel-MAE は、自動運転車の認識能力を高めるために、データ注釈なしで大規模な点群を事前にトレーニングできることを証明しています。
広範な実験により、3 つの一般的なデータセット (KITTI、Waymo、および nuScenes) に対する 3D オブジェクト検出器 (SECOND、CenterPoint、および PV-RCNN) を使用した事前トレーニング方法の大きな有効性が示されています。


Mask-based pre-training has achieved great success for self-supervised learning in images and languages without manually annotated supervision. However, it has not yet been studied for large-scale point clouds with redundant spatial information. In this research, we propose a mask voxel autoencoder network for pre-training large-scale point clouds, dubbed Voxel-MAE. Our key idea is to transform the point clouds into voxel representations and classify whether the voxel contains point clouds. This simple but effective strategy makes the network voxel-aware of the object shape, thus improving the performance of downstream tasks, such as 3D object detection. Our Voxel-MAE, with even a 90% masking ratio, can still learn representative features for the high spatial redundancy of large-scale point clouds. We also validate the effectiveness of Voxel-MAE on unsupervised domain adaptative tasks, which proves the generalization ability of Voxel-MAE. Our Voxel-MAE proves that it is feasible to pre-train large-scale point clouds without data annotations to enhance the perception ability of the autonomous vehicle. Extensive experiments show great effectiveness of our pre-training method with 3D object detectors (SECOND, CenterPoint, and PV-RCNN) on three popular datasets (KITTI, Waymo, and nuScenes).


著者 Chen Min,Xinli Xu,Dawei Zhao,Liang Xiao,Yiming Nie,Bin Dai
発行日 2022-08-16 14:16:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク