S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion

要約

画像融合のタスクの 1 つとして、赤外線および可視画像融合は、さまざまなモダリティのセンサーによって捕捉された補完的な情報を 1 つの画像に統合することを目的としています。
選択的状態空間モデル (SSSM) は、長距離の依存関係をキャプチャする機能で知られており、コンピューター ビジョンの分野でその可能性を実証しています。
ただし、画像融合では、現在の方法では、両方のモダリティのグローバルな空間情報を取得する際の SSSM の可能性が過小評価されています。
この制限により、相互作用中に両方のモダリティからのグローバルな空間情報を同時に考慮することができなくなり、顕著なターゲットの包括的な認識の欠如につながります。
その結果、融合結果は、顕著なターゲットを適応的に保存するのではなく、1 つのモダリティに偏る傾向があります。
この問題に対処するために、Saliency-aware Selective State Space Fusion Model (S4Fusion) を提案します。
当社の S4Fusion では、設計されたクロスモーダル空間認識モジュール (CMSA) が、相互作用を促進しながら両方のモダリティからのグローバルな空間情報に同時に焦点を当てることができ、それによって補完的な情報を包括的に取得できます。
さらに、S4Fusion は、事前にトレーニングされたネットワークを利用して、融合された画像の不確実性を認識します。
この不確実性を最小限に抑えることで、S4Fusion は両方の画像から顕著なターゲットを適応的に強調表示します。
広範な実験により、私たちのアプローチが高品質の画像を生成し、下流のタスクのパフォーマンスが向上することが実証されました。

要約(オリジナル)

As one of the tasks in Image Fusion, Infrared and Visible Image Fusion aims to integrate complementary information captured by sensors of different modalities into a single image. The Selective State Space Model (SSSM), known for its ability to capture long-range dependencies, has demonstrated its potential in the field of computer vision. However, in image fusion, current methods underestimate the potential of SSSM in capturing the global spatial information of both modalities. This limitation prevents the simultaneous consideration of the global spatial information from both modalities during interaction, leading to a lack of comprehensive perception of salient targets. Consequently, the fusion results tend to bias towards one modality instead of adaptively preserving salient targets. To address this issue, we propose the Saliency-aware Selective State Space Fusion Model (S4Fusion). In our S4Fusion, the designed Cross-Modal Spatial Awareness Module (CMSA) can simultaneously focus on global spatial information from both modalities while facilitating their interaction, thereby comprehensively capturing complementary information. Additionally, S4Fusion leverages a pre-trained network to perceive uncertainty in the fused images. By minimizing this uncertainty, S4Fusion adaptively highlights salient targets from both images. Extensive experiments demonstrate that our approach produces high-quality images and enhances performance in downstream tasks.

arxiv情報

著者 Haolong Ma,Hui Li,Chunyang Cheng,Gaoang Wang,Xiaoning Song,Xiaojun Wu
発行日 2024-05-31 14:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク