Multi-level and multi-modal feature fusion for accurate 3D object detection in Connected and Automated Vehicles


コネクテッドおよび自動運転車 (CAV) の高精度なオブジェクト検出を目的として、このホワイト ペーパーでは、新しい LIDAR-カメラ フュージョン スキームを開発することにより、3 段階の特徴抽出器を活用するディープ ニューラル ネットワーク ベースの 3D オブジェクト検出モデルを紹介します。
提案された特徴抽出器は、2 つの入力感覚モダリティから高レベルの特徴を抽出し、畳み込みプロセス中に破棄された重要な特徴を回復します。
融合された機能は、領域提案ネットワーク (RPN) と検出ヘッド (DH) の 2 段階のネットワークによって共有されます。
RPN は再現率の高い提案を生成し、DH は最終的な検出結果を生成します。
実験結果は、提案されたモデルが、KITTI 2D および 3D 検出ベンチマークに関する最近の研究よりも優れていることを示しています。


Aiming at highly accurate object detection for connected and automated vehicles (CAVs), this paper presents a Deep Neural Network based 3D object detection model that leverages a three-stage feature extractor by developing a novel LIDAR-Camera fusion scheme. The proposed feature extractor extracts high-level features from two input sensory modalities and recovers the important features discarded during the convolutional process. The novel fusion scheme effectively fuses features across sensory modalities and convolutional layers to find the best representative global features. The fused features are shared by a two-stage network: the region proposal network (RPN) and the detection head (DH). The RPN generates high-recall proposals, and the DH produces final detection results. The experimental results show the proposed model outperforms more recent research on the KITTI 2D and 3D detection benchmark, particularly for distant and highly occluded instances.


著者 Yiming Hou,Mahdi Rezaei,Richard Romano
発行日 2022-12-19 14:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.NE, cs.RO, eess.IV パーマリンク