BEVSimDet: Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

要約

マルチビュー カメラ ベースの 3D オブジェクト検出は、その低コストにより人気を博しています。
しかし、カメラ データのみから 3D ジオメトリを正確に推測することは依然として困難であり、モデルのパフォーマンスに影響を与えます。
この問題に対処する有望なアプローチの 1 つは、LiDAR データから正確な 3D ジオメトリの知識を抽出することです。
ただし、異なるセンサー モダリティ間で知識を伝達することは、モダリティの大きなギャップによって妨げられています。
この論文では、アーキテクチャ設計と知識蒸留の両方の観点からこの課題に取り組み、BEVSimDet という名前の新しいシミュレートされたマルチモーダル 3D オブジェクト検出方法を提示します。
最初に、LiDAR とカメラ フュージョン ベースの教師と、シミュレートされたマルチモーダル学生を含む新しいフレームワークを紹介します。学生は、画像のみの入力でマルチモーダル機能をシミュレートします。
効果的な蒸留を容易にするために、イントラモーダル、クロスモーダル、およびマルチモーダル蒸留を同時にサポートするシミュレートされたマルチモーダル蒸留スキームを提案します。
それらを組み合わせることで、BEVSimDet は、費用対効果の高いカメラのみの展開を楽しみながら、3D オブジェクト検出のためのより優れた特徴表現を学習できます。
挑戦的な nuScenes ベンチマークでの実験結果は、最近の代表的な方法に対する BEVSimDet の有効性と優位性を示しています。
ソースコードが公開されます。

要約(オリジナル)

Multi-view camera-based 3D object detection has gained popularity due to its low cost. But accurately inferring 3D geometry solely from camera data remains challenging, which impacts model performance. One promising approach to address this issue is to distill precise 3D geometry knowledge from LiDAR data. However, transferring knowledge between different sensor modalities is hindered by the significant modality gap. In this paper, we approach this challenge from the perspective of both architecture design and knowledge distillation and present a new simulated multi-modal 3D object detection method named BEVSimDet. We first introduce a novel framework that includes a LiDAR and camera fusion-based teacher and a simulated multi-modal student, where the student simulates multi-modal features with image-only input. To facilitate effective distillation, we propose a simulated multi-modal distillation scheme that supports intra-modal, cross-modal, and multi-modal distillation simultaneously. By combining them together, BEVSimDet can learn better feature representations for 3D object detection while enjoying cost-effective camera-only deployment. Experimental results on the challenging nuScenes benchmark demonstrate the effectiveness and superiority of BEVSimDet over recent representative methods. The source code will be released.

arxiv情報

著者 Haimei Zhao,Qiming Zhang,Shanshan Zhao,Jing Zhang,Dacheng Tao
発行日 2023-03-29 16:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク