A Generalized Multi-Modal Fusion Detection Framework

要約

LiDAR 点群は、自動運転において最も一般的なデータ ソースとなっています。
ただし、点群がまばらであるため、特定のシナリオでは正確で信頼性の高い検出を実現できません。
点群との相補性により、画像への注目が高まっています。
ある程度の成功はあるものの、既存の融合方法はハード融合を実行するか、直接的な方法で融合を行わないかのどちらかです。
この論文では、マルチモーダル機能を使用した、MMFusion と呼ばれる汎用 3D 検出フレームワークを提案します。
このフレームワークは、LiDAR と画像の間の正確な融合を実現し、複雑なシーンでの 3D 検出を向上させることを目的としています。
私たちのフレームワークは、LiDAR ストリームとカメラ ストリームという 2 つの別個のストリームで構成されており、単一モーダルの特徴抽出ネットワークと互換性があります。
LiDAR ストリームのボクセル ローカル知覚モジュールはローカル特徴表現を強化し、マルチモーダル特徴融合モジュールはさまざまなストリームからの特徴出力を選択的に組み合わせて、より優れた融合を実現します。
広範な実験により、当社のフレームワークは既存のベンチマークよりも優れているだけでなく、強力な堅牢性と一般化機能により、特に KITTI ベンチマークでの自転車と歩行者の検出において、検出が向上していることが示されました。
私たちの研究が、自動運転タスクのためのマルチモーダル融合に関するさらなる研究を刺激することを願っています。

要約(オリジナル)

LiDAR point clouds have become the most common data source in autonomous driving. However, due to the sparsity of point clouds, accurate and reliable detection cannot be achieved in specific scenarios. Because of their complementarity with point clouds, images are getting increasing attention. Although with some success, existing fusion methods either perform hard fusion or do not fuse in a direct manner. In this paper, we propose a generic 3D detection framework called MMFusion, using multi-modal features. The framework aims to achieve accurate fusion between LiDAR and images to improve 3D detection in complex scenes. Our framework consists of two separate streams: the LiDAR stream and the camera stream, which can be compatible with any single-modal feature extraction network. The Voxel Local Perception Module in the LiDAR stream enhances local feature representation, and then the Multi-modal Feature Fusion Module selectively combines feature output from different streams to achieve better fusion. Extensive experiments have shown that our framework not only outperforms existing benchmarks but also improves their detection, especially for detecting cyclists and pedestrians on KITTI benchmarks, with strong robustness and generalization capabilities. Hopefully, our work will stimulate more research into multi-modal fusion for autonomous driving tasks.

arxiv情報

著者 Leichao Cui,Xiuxian Li,Min Meng,Xiaoyu Mo
発行日 2024-01-22 13:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク