FusionMamba: Efficient Image Fusion with State Space Model

要約

画像融合は、スペクトル情報が限られた高解像度画像と豊富なスペクトルデータを持つ低解像度画像を組み合わせて、高解像度のマルチ/ハイパースペクトル画像を生成することを目的としています。
現在のディープ ラーニング (DL) ベースの画像融合手法は、主に CNN またはトランスフォーマーに依存して特徴を抽出し、さまざまな種類のデータを結合します。
CNN は効率的ですが、その受容野は限られており、グローバルなコンテキストを捉える能力が制限されています。
逆に、トランスフォーマーはグローバル情報の学習には優れていますが、二次関数の複雑さによって妨げられます。
幸いなことに、状態空間モデル (SSM)、特に Mamba の最近の進歩は、線形複雑さによるグローバルな認識を可能にすることで、この問題に対する有望な解決策を提供します。
しかし、情報融合における SSM の可能性を探る試みはほとんどありませんでした。情報融合は、画像融合などの分野で重要な能力です。
そこで、私たちは効率的な画像融合のための革新的な手法である FusionMamba を提案します。
私たちの貢献は主に 2 つの側面に焦点を当てています。
まず、さまざまなソースからの画像が異なる特性を持っていることを認識し、Mamba ブロックを 2 つの U 字型ネットワークに組み込んで、効率的、独立した、階層的な方法で空間およびスペクトルの特徴を抽出する新しいアーキテクチャを提示します。
次に、空間情報とスペクトル情報を効果的に組み合わせるために、二重入力に対応できるように Mamba ブロックを拡張します。
この拡張により、FusionMamba ブロックと呼ばれる新しいモジュールが作成され、連結やクロスアテンションなどの既存の融合技術よりも優れた性能を発揮します。
FusionMamba の有効性を検証するために、3 つの画像融合タスクに関連する 5 つのデータセットに対して一連の実験を実施します。
定量的および定性的な評価結果は、私たちの手法が最先端 (SOTA) のパフォーマンスを達成していることを示しており、FusionMamba の優位性を強調しています。

要約(オリジナル)

Image fusion aims to generate a high-resolution multi/hyper-spectral image by combining a high-resolution image with limited spectral information and a low-resolution image with abundant spectral data. Current deep learning (DL)-based methods for image fusion primarily rely on CNNs or Transformers to extract features and merge different types of data. While CNNs are efficient, their receptive fields are limited, restricting their capacity to capture global context. Conversely, Transformers excel at learning global information but are hindered by their quadratic complexity. Fortunately, recent advancements in the State Space Model (SSM), particularly Mamba, offer a promising solution to this issue by enabling global awareness with linear complexity. However, there have been few attempts to explore the potential of SSM in information fusion, which is a crucial ability in domains like image fusion. Therefore, we propose FusionMamba, an innovative method for efficient image fusion. Our contributions mainly focus on two aspects. Firstly, recognizing that images from different sources possess distinct properties, we incorporate Mamba blocks into two U-shaped networks, presenting a novel architecture that extracts spatial and spectral features in an efficient, independent, and hierarchical manner. Secondly, to effectively combine spatial and spectral information, we extend the Mamba block to accommodate dual inputs. This expansion leads to the creation of a new module called the FusionMamba block, which outperforms existing fusion techniques such as concatenation and cross-attention. To validate FusionMamba’s effectiveness, we conduct a series of experiments on five datasets related to three image fusion tasks. The quantitative and qualitative evaluation results demonstrate that our method achieves state-of-the-art (SOTA) performance, underscoring the superiority of FusionMamba.

arxiv情報

著者 Siran Peng,Xiangyu Zhu,Haoyu Deng,Zhen Lei,Liang-Jian Deng
発行日 2024-04-11 17:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク