Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds

要約

マスクベースの事前トレーニングは、手動で注釈を付けた監視なしで、画像、ビデオ、および言語の自己監視学習で大きな成功を収めました。
ただし、自動運転における冗長な空間情報を備えた大規模な点群については、まだ研究されていません。
大規模な点群の数が多いため、入力点群を再構築することはできません。
本論文では、大規模な点群の事前訓練のためのマスクボクセル分類ネットワークを提案した。
私たちの重要なアイデアは、点群をボクセル表現に分割し、ボクセルに点群が含まれているかどうかを分類することです。
この単純な戦略により、ネットワークはオブジェクトの形状をボクセルで認識できるようになり、3Dオブジェクト検出などのダウンストリームタスクのパフォーマンスが向上します。
マスキング率が90%のボクセル-MAEでも、大規模な点群の高い空間冗長性の代表的な機能を学習できます。
また、教師なしドメイン適応タスクでのVoxel-MAEの有効性を検証します。これは、Voxel-MAEの一般化能力を証明します。
私たちのVoxel-MAEは、自動運転車の知覚能力を強化するために、データ注釈なしで大規模な点群を事前トレーニングすることが可能であることを証明しています。
広範な実験により、3つの一般的なデータセット(KITTI、Waymo、およびnuScenes)での3Dオブジェクト検出器(SECOND、CenterPoint、およびPV-RCNN)を使用した事前トレーニング済みモデルの優れた効果が示されています。
コードはhttps://github.com/chaytonmin/Voxel-MAEで公開されています。

要約(オリジナル)

Mask-based pre-training has achieved great success for self-supervised learning in image, video, and language, without manually annotated supervision. However, it has not yet been studied about large-scale point clouds with redundant spatial information in autonomous driving. As the number of large-scale point clouds is huge, it is impossible to reconstruct the input point clouds. In this paper, we propose a mask voxel classification network for large-scale point clouds pre-training. Our key idea is to divide the point clouds into voxel representations and classify whether the voxel contains point clouds. This simple strategy makes the network to be voxel-aware of the object shape, thus improving the performance of the downstream tasks, such as 3D object detection. Our Voxel-MAE with even a 90% masking ratio can still learn representative features for the high spatial redundancy of large-scale point clouds. We also validate the effectiveness of Voxel-MAE in unsupervised domain adaptative tasks, which proves the generalization ability of Voxel-MAE. Our Voxel-MAE proves that it is feasible to pre-train large-scale point clouds without data annotations to enhance the perception ability of the autonomous vehicle. Extensive experiments show great effectiveness of our pre-trained model with 3D object detectors (SECOND, CenterPoint, and PV-RCNN) on three popular datasets (KITTI, Waymo, and nuScenes). Codes are publicly available at https://github.com/chaytonmin/Voxel-MAE.

arxiv情報

著者 Chen Min,Dawei Zhao,Liang Xiao,Yiming Nie,Bin Dai
発行日 2022-06-24 06:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク