Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders

要約

自動運転における現在の認識モデルは、大規模なラベル付き 3D データに大きく依存しており、注釈を付けるにはコストと時間がかかります。
この研究では、マスク オートエンコーダ (MAE) を使用した大規模なラベルのない屋外 LiDAR 点群での事前トレーニングを活用することで、ラベル付き 3D トレーニング データへの依存を減らすソリューションを提案します。
既存のマスクされた点の自動エンコーディング手法は、主に小規模な屋内点群または柱ベースの大規模屋外 LiDAR データに焦点を当てていますが、私たちのアプローチでは、Occupancy-MAE と呼ばれる新しい自己監視型マスク占有事前トレーニング手法を導入しています。
ベースの大規模な屋外 LiDAR 点群。
Occupancy-MAE は、屋外 LiDAR 点群の徐々にまばらなボクセル占有構造を利用し、範囲を意識したランダム マスキング戦略と占有予測の口実タスクを組み込みます。
Occupancy-MAE は、LiDAR までの距離に基づいてボクセルをランダムにマスクし、3D 周囲のシーン全体のマスクされた占有構造を予測することで、少数の可視ボクセルのみを使用してマスクされたボクセルを再構築するための高レベルのセマンティック情報の抽出を促進します。
広範な実験により、いくつかの下流タスクにわたる Occupancy-MAE の有効性が実証されています。
3D オブジェクト検出の場合、Occupancy-MAE は、KITTI データセット上の自動車検出に必要なラベル付きデータを半分に削減し、Waymo データセット上の AP での小さなオブジェクトの検出を約 2% 改善します。
3D セマンティック セグメンテーションの場合、Occupancy-MAE は、ゼロからのトレーニングよりも mIoU で約 2% 優れています。
マルチオブジェクト追跡の場合、Occupancy-MAE は、AMOTA と AMOTP に関してゼロからのトレーニングを約 1% 強化します。
コードは https://github.com/chaytonmin/Occupancy-MAE で公開されています。

要約(オリジナル)

Current perception models in autonomous driving heavily rely on large-scale labelled 3D data, which is both costly and time-consuming to annotate. This work proposes a solution to reduce the dependence on labelled 3D training data by leveraging pre-training on large-scale unlabeled outdoor LiDAR point clouds using masked autoencoders (MAE). While existing masked point autoencoding methods mainly focus on small-scale indoor point clouds or pillar-based large-scale outdoor LiDAR data, our approach introduces a new self-supervised masked occupancy pre-training method called Occupancy-MAE, specifically designed for voxel-based large-scale outdoor LiDAR point clouds. Occupancy-MAE takes advantage of the gradually sparse voxel occupancy structure of outdoor LiDAR point clouds and incorporates a range-aware random masking strategy and a pretext task of occupancy prediction. By randomly masking voxels based on their distance to the LiDAR and predicting the masked occupancy structure of the entire 3D surrounding scene, Occupancy-MAE encourages the extraction of high-level semantic information to reconstruct the masked voxel using only a small number of visible voxels. Extensive experiments demonstrate the effectiveness of Occupancy-MAE across several downstream tasks. For 3D object detection, Occupancy-MAE reduces the labelled data required for car detection on the KITTI dataset by half and improves small object detection by approximately 2% in AP on the Waymo dataset. For 3D semantic segmentation, Occupancy-MAE outperforms training from scratch by around 2% in mIoU. For multi-object tracking, Occupancy-MAE enhances training from scratch by approximately 1% in terms of AMOTA and AMOTP. Codes are publicly available at https://github.com/chaytonmin/Occupancy-MAE.

arxiv情報

著者 Chen Min,Xinli Xu,Dawei Zhao,Liang Xiao,Yiming Nie,Bin Dai
発行日 2023-10-09 12:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク