MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds

要約

大規模な LiDAR 点群のセンシング プロセスでは、必然的に大きな死角、つまりセンサーに見えない領域が発生します。
最先端の物体検出器をトレーニングするための面倒な 3D アノテーションの必要性を大幅に軽減する非常に効果的な事前トレーニング フレームワークを設計することで、これらの固有のサンプリング特性を自己教師あり表現学習に効果的に利用できる方法を実証します。
当社の LiDAR 点群用マスク オートエンコーダ (MAELi) は、再構築中にエンコーダとデコーダの両方で LiDAR 点群のスパース性を直感的に活用します。
これにより、より表現力豊かで便利な初期化が実現し、3D オブジェクト検出や自動運転のセマンティック セグメンテーションなど、下流の認識タスクに直接適用できます。
新しい再構成アプローチで、MAELi は空の空間と遮蔽された空間を区別し、LiDAR 固有の球面投影をターゲットとする新しいマスキング戦略を採用します。
これにより、MAELi は、グラウンド トゥルースをまったく使用せず、単一フレームのみでトレーニングされ、基礎となる 3D シーンのジオメトリとセマンティクスを理解します。
MAELi の可能性を実証するために、エンドツーエンドの方法でバックボーンを事前トレーニングし、3D オブジェクト検出とセマンティック セグメンテーションのタスクに対する教師なしの事前トレーニングされた重みの有効性を示します。

要約(オリジナル)

The sensing process of large-scale LiDAR point clouds inevitably causes large blind spots, i.e. regions not visible to the sensor. We demonstrate how these inherent sampling properties can be effectively utilized for self-supervised representation learning by designing a highly effective pre-training framework that considerably reduces the need for tedious 3D annotations to train state-of-the-art object detectors. Our Masked AutoEncoder for LiDAR point clouds (MAELi) intuitively leverages the sparsity of LiDAR point clouds in both the encoder and decoder during reconstruction. This results in more expressive and useful initialization, which can be directly applied to downstream perception tasks, such as 3D object detection or semantic segmentation for autonomous driving. In a novel reconstruction approach, MAELi distinguishes between empty and occluded space and employs a new masking strategy that targets the LiDAR’s inherent spherical projection. Thereby, without any ground truth whatsoever and trained on single frames only, MAELi obtains an understanding of the underlying 3D scene geometry and semantics. To demonstrate the potential of MAELi, we pre-train backbones in an end-to-end manner and show the effectiveness of our unsupervised pre-trained weights on the tasks of 3D object detection and semantic segmentation.

arxiv情報

著者 Georg Krispel,David Schinagl,Christian Fruhwirth-Reisinger,Horst Possegger,Horst Bischof
発行日 2023-12-07 16:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク