GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds

要約

画像やビデオなどのビジョン タスクの開発におけるマスク オートエンコーダー (MAE) の驚異的な進歩にもかかわらず、大規模な 3D 点群で MAE を探索することは、固有の不規則性のために依然として困難です。
維持された領域からマスクされた情報を推測する複雑なデコーダーを設計するか、洗練されたマスキング戦略を採用する以前の 3D MAE フレームワークとは対照的に、代わりにはるかに単純なパラダイムを提案します。
コアとなるアイデアは、MAE 用の \textbf{G}generative \textbf{D}ecoder (GD-MAE) を適用して、周囲のコンテキストを自動的にマージし、マスクされた幾何学的知識を階層的な融合方法で復元することです。
そうすることで、私たちのアプローチは、デコーダーのヒューリスティックな設計を導入することから解放され、さまざまなマスキング戦略を探索する柔軟性を享受します。
対応する部分のコストは、従来の方法と比較して \textbf{12\%} レイテンシー未満でありながら、より優れたパフォーマンスを実現します。
Waymo、KITTI、ONCE など、いくつかの大規模なベンチマークで、提案された方法の有効性を示します。
ダウンストリーム検出タスクの一貫した改善は、強力な堅牢性と一般化機能を示しています。
私たちの方法は最先端の結果を明らかにするだけでなく、驚くべきことに、Waymo データセットのラベル付きデータの \textbf{20\%} でも同等の精度を達成しています。
コードは \url{https://github.com/Nightmare-n/GD-MAE} で公開されます。

要約(オリジナル)

Despite the tremendous progress of Masked Autoencoders (MAE) in developing vision tasks such as image and video, exploring MAE in large-scale 3D point clouds remains challenging due to the inherent irregularity. In contrast to previous 3D MAE frameworks, which either design a complex decoder to infer masked information from maintained regions or adopt sophisticated masking strategies, we instead propose a much simpler paradigm. The core idea is to apply a \textbf{G}enerative \textbf{D}ecoder for MAE (GD-MAE) to automatically merges the surrounding context to restore the masked geometric knowledge in a hierarchical fusion manner. In doing so, our approach is free from introducing the heuristic design of decoders and enjoys the flexibility of exploring various masking strategies. The corresponding part costs less than \textbf{12\%} latency compared with conventional methods, while achieving better performance. We demonstrate the efficacy of the proposed method on several large-scale benchmarks: Waymo, KITTI, and ONCE. Consistent improvement on downstream detection tasks illustrates strong robustness and generalization capability. Not only our method reveals state-of-the-art results, but remarkably, we achieve comparable accuracy even with \textbf{20\%} of the labeled data on the Waymo dataset. The code will be released at \url{https://github.com/Nightmare-n/GD-MAE}.

arxiv情報

著者 Honghui Yang,Tong He,Jiaheng Liu,Hua Chen,Boxi Wu,Binbin Lin,Xiaofei He,Wanli Ouyang
発行日 2022-12-07 13:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク