Masked Autoencoders for Self-Supervised Learning on Automotive Point Clouds

要約

マスクドオートエンコーディングは、テキスト、画像、そして最近では点群に対するTransformerモデルの事前学習パラダイムとして成功を収めている。自動車の生データセットは、3Dオブジェクト検出(OD)のようなタスクのためのアノテーションと比較して一般的に収集するのが安価であるため、自己教師付き事前学習のための適切な候補である。しかし、点群のためのマスクドオートエンコーダの開発は、合成データや屋内データにのみ焦点が当てられています。その結果、既存の手法は、小さく、高密度で、点密度が均一な点群に対して、その表現とモデルを調整したものである。本研究では、点群が疎であり、同一シーン内のオブジェクト間で点密度が大きく変化する自動車内の点群に対するマスクドオートエンコーディングを研究する。この目的のために、我々はボクセル表現のために設計されたシンプルなマスクドオートエンコーディングの事前学習スキームであるVoxel-MAEを提案する。本手法は、Transformerベースの3次元物体検出器のバックボーンに、マスクされたボクセルを再構成し、空のボクセルとそうでないボクセルを区別するための事前学習を行う。本手法は、難易度の高いnuScenesデータセットにおいて、3D ODの性能を1.75mAPポイント、1.05NDS向上させる。また,自動車データに対する既存の自己教師付き手法と比較して,Voxel-MAEは最大で$2times$の性能向上を示している.さらに、Voxel-MAEを用いた事前学習により、アノテーションデータの40%で、ランダムに初期化した同等の手法より優れた性能を発揮することを示す。コードを公開予定。

要約(オリジナル)

Masked autoencoding has become a successful pre-training paradigm for Transformer models for text, images, and recently, point clouds. Raw automotive datasets are a suitable candidate for self-supervised pre-training as they generally are cheap to collect compared to annotations for tasks like 3D object detection (OD). However, development of masked autoencoders for point clouds has focused solely on synthetic and indoor data. Consequently, existing methods have tailored their representations and models toward point clouds which are small, dense and have homogeneous point density. In this work, we study masked autoencoding for point clouds in an automotive setting, which are sparse and for which the point density can vary drastically among objects in the same scene. To this end, we propose Voxel-MAE, a simple masked autoencoding pre-training scheme designed for voxel representations. We pre-train the backbone of a Transformer-based 3D object detector to reconstruct masked voxels and to distinguish between empty and non-empty voxels. Our method improves the 3D OD performance by 1.75 mAP points and 1.05 NDS on the challenging nuScenes dataset. Compared to existing self-supervised methods for automotive data, Voxel-MAE displays up to $2\times$ performance increase. Further, we show that by pre-training with Voxel-MAE, we require only 40% of the annotated data to outperform a randomly initialized equivalent. Code will be released.

arxiv情報

著者 Georg Hess,Johan Jaxing,Elias Svensson,David Hagerman,Christoffer Petersson,Lennart Svensson
発行日 2022-07-01 16:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク