HGSFusion: Radar-Camera Fusion with Hybrid Generation and Synchronization for 3D Object Detection

要約

ミリ波レーダーは、全天候およびあらゆる照明条件でも認識できるため、自動運転のための 3D 物体検出において重要な役割を果たします。
ただし、レーダー点群には、顕著なスパース性と避けられない角度推定エラーが発生します。
これらの制限に対処するには、カメラを組み込むことで欠点を部分的に軽減できる可能性があります。
それにもかかわらず、レーダーとカメラのデータを直接融合すると、画像の深度情報の欠如や、照明条件が悪い場合の低品質の画像特徴により、悪影響や逆効果さえも引き起こされる可能性があります。
したがって、この論文では、3D 物体検出のためのレーダーの可能性と画像の特徴をより適切に融合するように設計された、ハイブリッド生成と同期を備えたレーダーとカメラの融合ネットワーク (HGSFusion) を紹介します。
具体的には、レーダー信号処理における到着方向(DOA)推定誤差を十分に考慮したレーダーハイブリッド生成モジュール(RHGM)を提案します。
このモジュールは、セマンティック情報の助けを借りて、さまざまな確率密度関数 (PDF) を通じて、より高密度のレーダー ポイントを生成します。
一方、空間同期とモダリティ同期で構成されるデュアル同期モジュール (DSM) を導入し、レーダーの位置情報を使用して画像の特徴を強化し、さまざまなモダリティの異なる特性の融合を促進します。
広範な実験により、私たちのアプローチの有効性が実証され、VoD および TJ4DRadSet データセットの最先端の手法よりも、RoI AP と BEV AP でそれぞれ $6.53\%$ と $2.03\%$ 上回りました。
コードは https://github.com/garfield-cpp/HGSFusion で入手できます。

要約(オリジナル)

Millimeter-wave radar plays a vital role in 3D object detection for autonomous driving due to its all-weather and all-lighting-condition capabilities for perception. However, radar point clouds suffer from pronounced sparsity and unavoidable angle estimation errors. To address these limitations, incorporating a camera may partially help mitigate the shortcomings. Nevertheless, the direct fusion of radar and camera data can lead to negative or even opposite effects due to the lack of depth information in images and low-quality image features under adverse lighting conditions. Hence, in this paper, we present the radar-camera fusion network with Hybrid Generation and Synchronization (HGSFusion), designed to better fuse radar potentials and image features for 3D object detection. Specifically, we propose the Radar Hybrid Generation Module (RHGM), which fully considers the Direction-Of-Arrival (DOA) estimation errors in radar signal processing. This module generates denser radar points through different Probability Density Functions (PDFs) with the assistance of semantic information. Meanwhile, we introduce the Dual Sync Module (DSM), comprising spatial sync and modality sync, to enhance image features with radar positional information and facilitate the fusion of distinct characteristics in different modalities. Extensive experiments demonstrate the effectiveness of our approach, outperforming the state-of-the-art methods in the VoD and TJ4DRadSet datasets by $6.53\%$ and $2.03\%$ in RoI AP and BEV AP, respectively. The code is available at https://github.com/garfield-cpp/HGSFusion.

arxiv情報

著者 Zijian Gu,Jianwei Ma,Yan Huang,Honghao Wei,Zhanye Chen,Hui Zhang,Wei Hong
発行日 2024-12-16 07:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク