MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection

要約

自律走行システムにおいて、正確で信頼性の高い3次元物体検出を実現するためには、LiDARとカメラの情報を融合させることが不可欠である。しかし、2つの全く異なるモダリティからの多粒度幾何学的特徴と意味的特徴を組み合わせることが困難であるため、これは困難である。最近のアプローチは、2次元カメラ画像内の点(シードと呼ばれる)を3次元空間に持ち上げて融合することで、カメラ特徴の意味的密度を探索することを目指しており、1)初期入力段階で3次元点群を増強することを目的とした生点の早期融合、2)検出ヘッドの前にLiDARとカメラのBEV(鳥瞰)マップ特徴を融合させるBEVの後半融合に大別されます。どちらも結合された特徴の表現力を高めるメリットがありますが、このシングルレベル融合戦略は前述の課題に対する最適解ではありません。その主な欠点は、2つの異なるモダリティからの多粒度セマンティック特徴を十分に相互作用させることができないことである。このため、我々は、LiDARとカメラの多階調の特徴量のマルチスケール漸進的相互作用に注目した新しいフレームワークを提案する。提案手法(MDMSFusionと略す)は、3次元物体検出において、nuScenes検証セットで69.1mAP、71.8NDS、nuScenesテストセットで70.8mAP、73.2NDSという最先端の結果を達成し、提出時までに単一モデルの非エンブルアプローチでそれぞれ1、2位になっています。

要約(オリジナル)

Fusing LiDAR and camera information is essential for achieving accurate and reliable 3D object detection in autonomous driving systems. However, this is challenging due to the difficulty of combining multi-granularity geometric and semantic features from two drastically different modalities. Recent approaches aim at exploring the semantic densities of camera features through lifting points in 2D camera images (referred to as seeds) into 3D space for fusion, and they can be roughly divided into 1) early fusion of raw points that aims at augmenting the 3D point cloud at the early input stage, and 2) late fusion of BEV (bird-eye view) maps that merges LiDAR and camera BEV features before the detection head. While both have their merits in enhancing the representation power of the combined features, this single-level fusion strategy is a suboptimal solution to the aforementioned challenge. Their major drawbacks are the inability to interact the multi-granularity semantic features from two distinct modalities sufficiently. To this end, we propose a novel framework that focuses on the multi-scale progressive interaction of the multi-granularity LiDAR and camera features. Our proposed method, abbreviated as MDMSFusion, achieves state-of-the-art results in 3D object detection, with 69.1 mAP and 71.8 NDS on nuScenes validation set, and 70.8 mAP and 73.2 NDS on nuScenes test set, which rank 1st and 2nd respectively among single-model non-ensemble approaches by the time of submission.

arxiv情報

著者 Yang Jiao,Zequn Jie,Shaoxiang Chen,Jingjing Chen,Xiaolin Wei,Lin Ma,Yu-Gang Jiang
発行日 2022-09-07 12:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク