DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars

要約

3Dオブジェクト検出のためにライダー、カメラ、レーダーをさまざまな組み合わせで融合するモジュラーマルチモーダルアーキテクチャであるDeepFusionを提案します。
特殊な機能エクストラクタは各モダリティを利用し、簡単に交換できるため、アプローチがシンプルで柔軟になります。
抽出された特徴は、フュージョンの共通表現として鳥瞰図に変換されます。
特徴空間でモダリティを融合する前に、空間的およびセマンティックなアラインメントが実行されます。
最後に、検出ヘッドは豊富なマルチモーダル機能を利用して、3D 検出パフォーマンスを向上させます。
ライダーとカメラ、ライダーとカメラとレーダー、カメラとレーダーの融合に関する実験結果は、我々の融合アプローチの柔軟性と有効性を示しています。
その過程で、最大 225 メートルの遠くの車を検出するという、ほとんど未踏のタスクを研究し、ライダーとカメラの融合の利点を示します。
さらに、3D オブジェクト検出に必要な LIDAR ポイントの密度を調査し、悪天候に対するロバスト性の例でその意味を説明します。
さらに、カメラとレーダーの融合に関するアブレーション研究は、正確な深度推定の重要性を強調しています。

要約(オリジナル)

We propose DeepFusion, a modular multi-modal architecture to fuse lidars, cameras and radars in different combinations for 3D object detection. Specialized feature extractors take advantage of each modality and can be exchanged easily, making the approach simple and flexible. Extracted features are transformed into bird’s-eye-view as a common representation for fusion. Spatial and semantic alignment is performed prior to fusing modalities in the feature space. Finally, a detection head exploits rich multi-modal features for improved 3D detection performance. Experimental results for lidar-camera, lidar-camera-radar and camera-radar fusion show the flexibility and effectiveness of our fusion approach. In the process, we study the largely unexplored task of faraway car detection up to 225~meters, showing the benefits of our lidar-camera fusion. Furthermore, we investigate the required density of lidar points for 3D object detection and illustrate implications at the example of robustness against adverse weather conditions. Moreover, ablation studies on our camera-radar fusion highlight the importance of accurate depth estimation.

arxiv情報

著者 Florian Drews,Di Feng,Florian Faion,Lars Rosenbaum,Michael Ulrich,Claudius Gläser
発行日 2022-09-26 14:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク