要約
マルチモーダルフュージョン検出では、イメージングシステムと画像前処理に常に高い要求が課されますが、高品質の事前位置合わせシステムまたは画像位置合わせ処理のいずれもコストがかかります。
残念ながら、既存の融合方法は登録されたソース画像用に設計されており、異なる意味情報を表現する同じ空間位置にある一対の特徴を表す不均質な特徴の融合は、これらの方法では満足のいくパフォーマンスを達成できません。
その結果、統合された高品質マルチモーダル特徴マッチング モジュール (AKM) と融合モジュール (WDAF) を備えた CNN と Transformer のハイブリッド学習フレームワークである IA-VFDnet を提案します。
高品質の赤外線対応可視核融合検出。煙や山火事の検出に適用できます。
さらに、M3FD データセットの実験により、提案手法の優位性が検証され、IA-VFDnet は従来の登録条件下で他の最先端手法よりも最高の検出パフォーマンスを達成しました。
さらに、このレターでは、初の未登録のマルチモーダル煙および山火事検出ベンチマークが公開されています。
要約(オリジナル)
Multimodal fusion detection always places high demands on the imaging system and image pre-processing, while either a high-quality pre-registration system or image registration processing is costly. Unfortunately, the existing fusion methods are designed for registered source images, and the fusion of inhomogeneous features, which denotes a pair of features at the same spatial location that expresses different semantic information, cannot achieve satisfactory performance via these methods. As a result, we propose IA-VFDnet, a CNN-Transformer hybrid learning framework with a unified high-quality multimodal feature matching module (AKM) and a fusion module (WDAF), in which AKM and DWDAF work in synergy to perform high-quality infrared-aware visible fusion detection, which can be applied to smoke and wildfire detection. Furthermore, experiments on the M3FD dataset validate the superiority of the proposed method, with IA-VFDnet achieving the best detection performance than other state-of-the-art methods under conventional registered conditions. In addition, the first unregistered multimodal smoke and wildfire detection benchmark is openly available in this letter.
arxiv情報
著者 | Yinghan Guan,Haoran Dai,Zekuan Yu,Shouyu Wang,Yuanjie Gu |
発行日 | 2023-07-07 07:11:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google