Self-supervised Pre-training for Transferable Multi-modal Perception

要約

自動運転では、複数のセンサーからの入力を活用するマルチモーダル知覚モデルが、劣悪な環境でも強力な堅牢性を示します。
ただし、これらのモデルは、学習した表現をさまざまなモダリティやタスク間で効率的かつ効果的に転送するという課題に直面しています。
この論文では、転送可能なマルチモーダル表現学習のための自己教師あり事前トレーニング パラダイムである NeRF 教師ありマスク自動エンコーダー (NS-MAE) を紹介します。
NS-MAE は、効率的で高性能な微調整のために事前トレーニングされたモデルの初期化を提供するように設計されています。
私たちのアプローチでは、神経放射フィールド (NeRF) でマスクされたマルチモーダル再構築を使用し、複数のモダリティにわたって欠落または破損した入力データを再構築するようにモデルをトレーニングします。
具体的には、特定のビュー方向と位置を条件として、破損した LiDAR 点群と画像からマルチモーダル エンベディングが抽出されます。
これらの埋め込みは、ニューラル レンダリング技術を使用して、投影されたマルチモーダル特徴マップにレンダリングされます。
元のマルチモーダル信号は、レンダリングされた特徴マップの再構成ターゲットとして機能し、自己教師あり表現学習を促進します。
広範な実験により、多様なマルチモーダルおよびシングルモーダルの知覚モデルにわたる NS-MAE 表現の有望な伝達可能性が実証されています。
この転送可能性は、さまざまな量の微調整ラベル付きデータを使用して、3D オブジェクト検出や BEV マップ セグメンテーションなどのさまざまな 3D 知覚の下流タスクで評価されます。
私たちのコードはコミュニティをサポートするためにリリースされます。

要約(オリジナル)

In autonomous driving, multi-modal perception models leveraging inputs from multiple sensors exhibit strong robustness in degraded environments. However, these models face challenges in efficiently and effectively transferring learned representations across different modalities and tasks. This paper presents NeRF-Supervised Masked Auto Encoder (NS-MAE), a self-supervised pre-training paradigm for transferable multi-modal representation learning. NS-MAE is designed to provide pre-trained model initializations for efficient and high-performance fine-tuning. Our approach uses masked multi-modal reconstruction in neural radiance fields (NeRF), training the model to reconstruct missing or corrupted input data across multiple modalities. Specifically, multi-modal embeddings are extracted from corrupted LiDAR point clouds and images, conditioned on specific view directions and locations. These embeddings are then rendered into projected multi-modal feature maps using neural rendering techniques. The original multi-modal signals serve as reconstruction targets for the rendered feature maps, facilitating self-supervised representation learning. Extensive experiments demonstrate the promising transferability of NS-MAE representations across diverse multi-modal and single-modal perception models. This transferability is evaluated on various 3D perception downstream tasks, such as 3D object detection and BEV map segmentation, using different amounts of fine-tuning labeled data. Our code will be released to support the community.

arxiv情報

著者 Xiaohao Xu,Tianyi Zhang,Jinrong Yang,Matthew Johnson-Roberson,Xiaonan Huang
発行日 2024-05-28 08:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク