Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion

要約

従来のフレームベースのカメラではダイナミック レンジが限られているため、情報損失が発生するため、可変照明下での交通物体の検出は困難です。
この問題に対処するために、私たちは生物にインスピレーションを得たイベント カメラを導入し、イベント ストリームから鮮明で完全なオブジェクト構造を抽出し、クロスモダリティ フュージョンを通じて画像内の失われた情報を補う新しい構造認識融合ネットワーク (SFNet) を提案します。
ネットワークを利用して、交通物体検出のための照明に堅牢な表現を取得します。
具体的には、固定間隔のイベント サンプリング手法における交通オブジェクトのさまざまな運動状態から生じるスパース性または不鮮明さの問題を軽減するために、速度不変フレーム (SIF) を生成し、フレームの整合性と鮮明さを保証する信頼性の高い構造生成ネットワーク (RSGNet) を提案します。
オブジェクト構造。
次に、2 つのモダリティ特徴の適応融合をガイドする新しい適応特徴補完モジュール (AFCM) を設計し、画像の全体的な明度分布を認識することで画像内の情報損失を補償し、それによって照明に強い表現を生成します。
最後に、既存のイベントベースの物体検出データセットには大規模かつ高品質のアノテーションが不足していることを考慮して、63,931 枚の画像と 8 つのクラスの 208,000 以上のラベルを含む 53 のシーケンスで構成される DSEC-Det データセットを構築します。
広範な実験結果は、私たちが提案した SFNet が従来のカメラの知覚限界を克服でき、フレームベースの方法よりも mAP50 で 8.0%、mAP50:95 で 5.9% 優れていることを示しています。
私たちのコードとデータセットは https://github.com/YN-Yang/SFNet で入手できます。

要約(オリジナル)

Traffic object detection under variable illumination is challenging due to the information loss caused by the limited dynamic range of conventional frame-based cameras. To address this issue, we introduce bio-inspired event cameras and propose a novel Structure-aware Fusion Network (SFNet) that extracts sharp and complete object structures from the event stream to compensate for the lost information in images through cross-modality fusion, enabling the network to obtain illumination-robust representations for traffic object detection. Specifically, to mitigate the sparsity or blurriness issues arising from diverse motion states of traffic objects in fixed-interval event sampling methods, we propose the Reliable Structure Generation Network (RSGNet) to generate Speed Invariant Frames (SIF), ensuring the integrity and sharpness of object structures. Next, we design a novel Adaptive Feature Complement Module (AFCM) which guides the adaptive fusion of two modality features to compensate for the information loss in the images by perceiving the global lightness distribution of the images, thereby generating illumination-robust representations. Finally, considering the lack of large-scale and high-quality annotations in the existing event-based object detection datasets, we build a DSEC-Det dataset, which consists of 53 sequences with 63,931 images and more than 208,000 labels for 8 classes. Extensive experimental results demonstrate that our proposed SFNet can overcome the perceptual boundaries of conventional cameras and outperform the frame-based method by 8.0% in mAP50 and 5.9% in mAP50:95. Our code and dataset will be available at https://github.com/YN-Yang/SFNet.

arxiv情報

著者 Zhanwen Liu,Nan Yang,Yang Wang,Yuke Li,Xiangmo Zhao,Fei-Yue Wang
発行日 2023-11-01 10:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク