MAELi $\unicode{x2013}$ Masked Autoencoder for Large-Scale LiDAR Point Clouds

要約

大規模なLiDARポイントクラウドの見過ごされがちな固有の特性を、自己教師あり表現学習に効果的に利用する方法を示します。
この目標を追求するために、最先端のオブジェクト検出器をトレーニングするための面倒な 3D アノテーションの必要性を大幅に削減する、非常にデータ効率の高い機能事前トレーニング バックボーンを設計します。
再構成中にエンコーダーとデコーダーの両方で LiDAR ポイント クラウドのスパース性を直感的に活用する、LiDAR ポイント クラウド用の Masked AutoEncoder (MAELi) を提案します。
私たちのアプローチは、自動運転のための 3D オブジェクト検出など、下流の認識タスクに直接適用できる、より表現力豊かで便利な機能をもたらします。
新しい再構成スキーマでは、MAELi は自由空間と閉塞空間を区別し、LiDAR 固有の球面投影をターゲットとする新しいマスキング戦略を採用しています。
MAELi の可能性を実証するために、最も広く使用されている 3D バックボーンの 1 つをエンドツーエンドの方法で事前トレーニングし、さまざまな 3D オブジェクト検出アーキテクチャに対する教師なしの事前トレーニング済み機能の有効性を示します。
私たちの方法は、オブジェクト検出器の微調整に使用できるラベル付きフレームのごく一部しか使用できない場合に、パフォーマンスを大幅に向上させます。
たとえば、最大 800 のラベル付きフレームで、MAELi 機能は、Waymo 車両で SECOND モデルを +10.79APH/LEVEL 2 強化します。

要約(オリジナル)

We demonstrate how the often overlooked inherent properties of large-scale LiDAR point clouds can be effectively utilized for self-supervised representation learning. In pursuit of this goal, we design a highly data-efficient feature pre-training backbone that considerably reduces the need for tedious 3D annotations to train state-of-the-art object detectors. We propose Masked AutoEncoder for LiDAR point clouds (MAELi) that intuitively leverages the sparsity of LiDAR point clouds in both the encoder and decoder during reconstruction. Our approach results in more expressive and useful features, which can be directly applied to downstream perception tasks, such as 3D object detection for autonomous driving. In a novel reconstruction schema, MAELi distinguishes between free and occluded space and employs a new masking strategy that targets the LiDAR’s inherent spherical projection. To demonstrate the potential of MAELi, we pre-train one of the most widely-used 3D backbones in an end-to-end manner and show the effectiveness of our unsupervised pre-trained features on various 3D object detection architectures. Our method achieves significant performance improvements when only a small fraction of labeled frames is available for fine-tuning object detectors. For instance, with ~800 labeled frames, MAELi features enhance a SECOND model by +10.79APH/LEVEL 2 on Waymo Vehicles.

arxiv情報

著者 Georg Krispel,David Schinagl,Christian Fruhwirth-Reisinger,Horst Possegger,Horst Bischof
発行日 2023-03-17 11:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク