Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds

要約

Masked Autoencoders(MAE)は、ビジョンおよびそれ以降の自己監視学習(SSL)の大きな可能性を示しています。
ただし、3Dボリュームの広い領域が空であるため、自動運転で使用されるLIDARSのポイントクラウドはMAEにとって特に困難です。
その結果、既存の作業は占有情報をデコーダーに漏らすことに苦しんでおり、重要な計算の複雑さを持ち、SSLの事前トレーニングを実際に2D鳥のアイビューエンコーダーのみに制限します。
この作業では、マスクされていないボクセルの近くでのみマスクされた占有再建を採用することにより、前述の課題を克服する新しい近隣の占有MAE(NOMAE)を提案します。
ポイントクラウドのさまざまなサイズのオブジェクトの特徴をキャプチャするために、提案された階層マスク生成技術を使用して、複数のスケールでボクセルマスキングと占有再構成を組み込みます。
NOMAESは非常に柔軟であり、既存の3DアーキテクチャではSSLに直接採用できます。
意味セグメンテーションと3Dオブジェクト検出のダウンストリーム認識タスクのために、ヌスセンとWaymoオープンデータセットについて広範な評価を実行し、識別的および生成的SSLメソッドの両方と比較します。
結果は、Nomaeが複数のポイントクラウドの知覚タスクに対して複数のベンチマークに新しい最先端のベンチマークを設定することを示しています。

要約(オリジナル)

Masked autoencoders (MAE) have shown tremendous potential for self-supervised learning (SSL) in vision and beyond. However, point clouds from LiDARs used in automated driving are particularly challenging for MAEs since large areas of the 3D volume are empty. Consequently, existing work suffers from leaking occupancy information into the decoder and has significant computational complexity, thereby limiting the SSL pre-training to only 2D bird’s eye view encoders in practice. In this work, we propose the novel neighborhood occupancy MAE (NOMAE) that overcomes the aforementioned challenges by employing masked occupancy reconstruction only in the neighborhood of non-masked voxels. We incorporate voxel masking and occupancy reconstruction at multiple scales with our proposed hierarchical mask generation technique to capture features of objects of different sizes in the point cloud. NOMAEs are extremely flexible and can be directly employed for SSL in existing 3D architectures. We perform extensive evaluations on the nuScenes and Waymo Open datasets for the downstream perception tasks of semantic segmentation and 3D object detection, comparing with both discriminative and generative SSL methods. The results demonstrate that NOMAE sets the new state-of-the-art on multiple benchmarks for multiple point cloud perception tasks.

arxiv情報

著者 Mohamed Abdelsamad,Michael Ulrich,Claudius Gläser,Abhinav Valada
発行日 2025-02-27 17:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク