Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding

要約

マルチビュー カメラ ベースの 3D 検出は、コンピューター ビジョンにおける困難な問題です。
最近の研究では、事前トレーニング済みの LiDAR 検出モデルを活用して、知識をカメラベースの学生ネットワークに転送しています。
ただし、LiDAR BEV 機能とカメラベースの BEV 機能の間には大きなドメイン ギャップがあると主張します。これらは異なる特性を持ち、異なるソースから派生したものだからです。
このホワイト ペーパーでは、マルチビュー カメラ ベースの 3D 検出を改善するために、LiDAR モデルの知識を事前トレーニング微調整パラダイムに転送する Geometry Enhanced Masked Image Modeling (GeoMIM) を提案します。
GeoMIM は、事前トレーニング済みの BEV モデルによってエンコードされた LiDAR BEV 機能を学習ターゲットとして使用する Cross-View Attention (CVA) ブロックを備えたマルチカメラ ビジョン トランスフォーマーです。
事前トレーニング中、GeoMIM のデコーダーには、密な透視図の特徴を完成させるセマンティック ブランチと、密な透視図の深度マップを再構築する他のジオメトリ ブランチがあります。
深度ブランチは、カメラのパラメーターを入力して転送機能を向上させることにより、カメラを認識するように設計されています。
広範な結果は、GeoMIM が nuScenes ベンチマークで既存の方法よりも優れていることを示しており、カメラベースの 3D オブジェクト検出と 3D セグメンテーションで最先端のパフォーマンスを達成しています。

要約(オリジナル)

Multi-view camera-based 3D detection is a challenging problem in computer vision. Recent works leverage a pretrained LiDAR detection model to transfer knowledge to a camera-based student network. However, we argue that there is a major domain gap between the LiDAR BEV features and the camera-based BEV features, as they have different characteristics and are derived from different sources. In this paper, we propose Geometry Enhanced Masked Image Modeling (GeoMIM) to transfer the knowledge of the LiDAR model in a pretrain-finetune paradigm for improving the multi-view camera-based 3D detection. GeoMIM is a multi-camera vision transformer with Cross-View Attention (CVA) blocks that uses LiDAR BEV features encoded by the pretrained BEV model as learning targets. During pretraining, GeoMIM’s decoder has a semantic branch completing dense perspective-view features and the other geometry branch reconstructing dense perspective-view depth maps. The depth branch is designed to be camera-aware by inputting the camera’s parameters for better transfer capability. Extensive results demonstrate that GeoMIM outperforms existing methods on nuScenes benchmark, achieving state-of-the-art performance for camera-based 3D object detection and 3D segmentation.

arxiv情報

著者 Jihao Liu,Tai Wang,Boxiao Liu,Qihang Zhang,Yu Liu,Hongsheng Li
発行日 2023-03-20 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク