要約
画像融合におけるタスクの1つとして、赤外線画像と可視画像の融合は、異なるモダリティのセンサーによって捉えられた相補的な情報を1つの画像に統合することを目的としている。選択的状態空間モデル(SSSM)は、長距離依存関係を捉える能力で知られ、コンピュータビジョンの分野でその可能性が実証されている。しかし、画像フュージョンにおいては、現在の手法は、両モダリティの大域的な空間情報を捉えるSSSMの可能性を過小評価している。この限界は、相互作用中に両方のモダリティからのグローバルな空間情報を同時に考慮することを妨げ、顕著な目標の包括的な知覚の欠如につながる。その結果、融合結果は、顕著な目標を適応的に保存するのではなく、一方のモダリティに偏る傾向がある。この問題に対処するため、我々は、顕著性を考慮した選択的状態空間融合モデル(S4Fusion)を提案する。S4Fusionでは、設計されたCross-Modal Spatial Awareness Module (CMSA)は、両モダリティの相互作用を促進しながら、両モダリティからのグローバルな空間情報に同時に焦点を当てることができ、それにより補完的な情報を包括的に捉えることができる。さらに、S4Fusionは、事前に訓練されたネットワークを活用し、融合画像の不確実性を認識します。この不確実性を最小化することで、S4Fusionは適応的に両方の画像から顕著なターゲットをハイライトする。広範な実験により、我々のアプローチが高品質な画像を生成し、下流タスクのパフォーマンスを向上させることが実証された。
要約(オリジナル)
As one of the tasks in Image Fusion, Infrared and Visible Image Fusion aims to integrate complementary information captured by sensors of different modalities into a single image. The Selective State Space Model (SSSM), known for its ability to capture long-range dependencies, has demonstrated its potential in the field of computer vision. However, in image fusion, current methods underestimate the potential of SSSM in capturing the global spatial information of both modalities. This limitation prevents the simultaneous consideration of the global spatial information from both modalities during interaction, leading to a lack of comprehensive perception of salient targets. Consequently, the fusion results tend to bias towards one modality instead of adaptively preserving salient targets. To address this issue, we propose the Saliency-aware Selective State Space Fusion Model (S4Fusion). In our S4Fusion, the designed Cross-Modal Spatial Awareness Module (CMSA) can simultaneously focus on global spatial information from both modalities while facilitating their interaction, thereby comprehensively capturing complementary information. Additionally, S4Fusion leverages a pre-trained network to perceive uncertainty in the fused images. By minimizing this uncertainty, S4Fusion adaptively highlights salient targets from both images. Extensive experiments demonstrate that our approach produces high-quality images and enhances performance in downstream tasks.
arxiv情報
著者 | Haolong Ma,Hui Li,Chunyang Cheng,Gaoang Wang,Xiaoning Song,Xiaojun Wu |
発行日 | 2024-06-03 04:38:42+00:00 |
arxivサイト | arxiv_id(pdf) |