CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions

要約

可視赤外線スペクトルの手がかりを統合したクロスモダリティ画像は、物体検出のためのより豊富な補完情報を提供できます。
それにもかかわらず、既存の可視赤外線物体検出方法は、厳しい気象条件では著しく性能が低下します。
この失敗は、雨、霧、雪などの環境の摂動に対する可視画像の顕著な感度が原因であり、検出時に偽陰性や偽陽性が頻繁に発生します。
この問題に対処するために、悪天候下での可視赤外線物体検出と呼ばれる、新しくて挑戦的なタスクを導入します。
このタスクを促進するために、私たちはさまざまな厳しい気象シーンを含む新しい厳しい気象可視赤外線データセット (SWVID) を構築しました。
さらに、悪天候時の検出精度を高めるために、Cross-modality Fusion Mamba with Weather-removal (CFMW) を導入します。
提案された気象除去拡散モデル (WRDM) およびクロスモダリティ フュージョン Mamba (CFM) モジュールのおかげで、CFMW はクロスモダリティ フュージョンで歩行者特徴のより重要な情報をマイニングできるため、他のまれなシナリオに高効率で転送でき、
コンピューティング能力が低いプラットフォームでも十分な可用性を備えています。
私たちの知る限り、これは改良を目的とし、クロスモダリティ物体検出において Diffusion モジュールと Mamba モジュールの両方を統合した最初の研究であり、より高精度でより高度なアーキテクチャにより、このタイプのモデルの実用的な応用を拡大することに成功しました。
有名なデータセットと独自に作成したデータセットの両方に対する広範な実験により、当社の CFMW が既存のベンチマークを上回る最先端の検出パフォーマンスを達成していることが最終的に実証されました。
データセットとソース コードは https://github.com/lhy-zjut/CFMW で公開されます。

要約(オリジナル)

Cross-modality images that integrate visible-infrared spectra cues can provide richer complementary information for object detection. Despite this, existing visible-infrared object detection methods severely degrade in severe weather conditions. This failure stems from the pronounced sensitivity of visible images to environmental perturbations, such as rain, haze, and snow, which frequently cause false negatives and false positives in detection. To address this issue, we introduce a novel and challenging task, termed visible-infrared object detection under adverse weather conditions. To foster this task, we have constructed a new Severe Weather Visible-Infrared Dataset (SWVID) with diverse severe weather scenes. Furthermore, we introduce the Cross-modality Fusion Mamba with Weather-removal (CFMW) to augment detection accuracy in adverse weather conditions. Thanks to the proposed Weather Removal Diffusion Model (WRDM) and Cross-modality Fusion Mamba (CFM) modules, CFMW is able to mine more essential information of pedestrian features in cross-modality fusion, thus could transfer to other rarer scenarios with high efficiency and has adequate availability on those platforms with low computing power. To the best of our knowledge, this is the first study that targeted improvement and integrated both Diffusion and Mamba modules in cross-modality object detection, successfully expanding the practical application of this type of model with its higher accuracy and more advanced architecture. Extensive experiments on both well-recognized and self-created datasets conclusively demonstrate that our CFMW achieves state-of-the-art detection performance, surpassing existing benchmarks. The dataset and source code will be made publicly available at https://github.com/lhy-zjut/CFMW.

arxiv情報

著者 Haoyuan Li,Qi Hu,You Yao,Kailun Yang,Peng Chen
発行日 2024-04-25 02:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV パーマリンク