A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion

要約

画像融合タスクでは、さまざまなソースからの画像が異なる特徴を持っています。
これにより、それぞれの特性を維持しながらそれらを融合するより良い方法を模索するための多数の手法の開発が推進されてきました。状態空間モデルとしての Mamba は、自然言語処理の分野で登場しました。
最近、多くの研究が Mamba を視覚タスクに拡張しようと試みています。
ただし、因果関係のある言語シーケンスとは異なる画像の性質により、Mamba の状態容量が限られているため、画像情報をモデル化する能力が弱まります。
さらに、Mamba のシーケンス モデリング機能は空間情報のみに対応しており、画像内の豊富なスペクトル情報を効果的にキャプチャすることはできません。
これらの課題を動機として、私たちは画像融合タスク用に設計されたビジョン Mamba ネットワークをカスタマイズおよび改善しました。
具体的には、LEVM と呼ばれるローカル拡張ビジョン Mamba ブロックを提案します。
LEVM ブロックは、ネットワークのローカル情報の認識を向上させ、同時にローカルおよびグローバルの空間情報を学習できます。
さらに、空間の詳細を強化し、空間情報とスペクトル情報を統合するための状態共有技術を提案します。
最後に、ネットワーク全体は、LE-Mamba と呼ばれるビジョン Mamba に基づくマルチスケール構造です。
広範な実験により、提案された方法がマルチスペクトル パンシャープニングとマルチスペクトルおよびハイパースペクトル画像融合データセットに関して最先端の結果を達成し、提案されたアプローチの有効性が実証されたことが示されています。
コードには \url{https://github.com/294coder/Efficient-MIF} からアクセスできます。

要約(オリジナル)

In image fusion tasks, images from different sources possess distinct characteristics. This has driven the development of numerous methods to explore better ways of fusing them while preserving their respective characteristics.Mamba, as a state space model, has emerged in the field of natural language processing. Recently, many studies have attempted to extend Mamba to vision tasks. However, due to the nature of images different from causal language sequences, the limited state capacity of Mamba weakens its ability to model image information. Additionally, the sequence modeling ability of Mamba is only capable of spatial information and cannot effectively capture the rich spectral information in images. Motivated by these challenges, we customize and improve the vision Mamba network designed for the image fusion task. Specifically, we propose the local-enhanced vision Mamba block, dubbed as LEVM. The LEVM block can improve local information perception of the network and simultaneously learn local and global spatial information. Furthermore, we propose the state sharing technique to enhance spatial details and integrate spatial and spectral information. Finally, the overall network is a multi-scale structure based on vision Mamba, called LE-Mamba. Extensive experiments show the proposed methods achieve state-of-the-art results on multispectral pansharpening and multispectral and hyperspectral image fusion datasets, and demonstrate the effectiveness of the proposed approach. Codes can be accessed at \url{https://github.com/294coder/Efficient-MIF}.

arxiv情報

著者 Zihan Cao,Xiao Wu,Liang-Jian Deng,Yu Zhong
発行日 2024-08-21 17:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク