A Generalized Multi-Modal Fusion Detection Framework


LiDAR 点群は、自動運転において最も一般的なデータ ソースとなっています。
この論文では、マルチモーダル機能を使用した、MMFusion と呼ばれる汎用 3D 検出フレームワークを提案します。
このフレームワークは、LiDAR と画像の間の正確な融合を実現し、複雑なシーンでの 3D 検出を向上させることを目的としています。
私たちのフレームワークは、LiDAR ストリームとカメラ ストリームという 2 つの別個のストリームで構成されており、単一モーダルの特徴抽出ネットワークと互換性があります。
LiDAR ストリームのボクセル ローカル知覚モジュールはローカル特徴表現を強化し、マルチモーダル特徴融合モジュールはさまざまなストリームからの特徴出力を選択的に組み合わせて、より優れた融合を実現します。
広範な実験により、当社のフレームワークは既存のベンチマークよりも優れているだけでなく、強力な堅牢性と一般化機能により、特に KITTI ベンチマークでの自転車と歩行者の検出において、検出が向上していることが示されました。


LiDAR point clouds have become the most common data source in autonomous driving. However, due to the sparsity of point clouds, accurate and reliable detection cannot be achieved in specific scenarios. Because of their complementarity with point clouds, images are getting increasing attention. Although with some success, existing fusion methods either perform hard fusion or do not fuse in a direct manner. In this paper, we propose a generic 3D detection framework called MMFusion, using multi-modal features. The framework aims to achieve accurate fusion between LiDAR and images to improve 3D detection in complex scenes. Our framework consists of two separate streams: the LiDAR stream and the camera stream, which can be compatible with any single-modal feature extraction network. The Voxel Local Perception Module in the LiDAR stream enhances local feature representation, and then the Multi-modal Feature Fusion Module selectively combines feature output from different streams to achieve better fusion. Extensive experiments have shown that our framework not only outperforms existing benchmarks but also improves their detection, especially for detecting cyclists and pedestrians on KITTI benchmarks, with strong robustness and generalization capabilities. Hopefully, our work will stimulate more research into multi-modal fusion for autonomous driving tasks.


著者 Leichao Cui,Xiuxian Li,Min Meng,Xiaoyu Mo
発行日 2024-01-22 13:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク