要約
マルチスペクトル(MS)およびパンクロマティック(PAN)画像は同じ土地表面を記述しているため、これらの画像には独自の利点があるだけでなく、多くの同様の情報もあります。
これらの同様の情報とそれぞれの利点を分離するために、融合段階での機能の冗長性を減らします。
このペーパーでは、マルチモーダルリモートセンシング画像分類のためのdif-attention Aware State State Space Fusion Model(DAS2F-Model)を紹介します。
選択状態空間モデルに基づいて、CrossモーダルDiff-Attentionモジュール(CMDAモジュール)は、MSおよびPAN画像の共通の特徴とそれぞれの支配的な特徴を抽出して分離するように設計されています。
この中には、Visual Mamba(SPVM)を保存するスペースは、画像の空間機能を保持し、Visual Mambaの入力を合理的に最適化することでローカル機能をキャプチャします。
融合段階の機能は、これらの大幅に異なる特徴を効果的に統合するために、機能分離と単純な融合操作の闘争後に大きな意味の違いがあることを考慮すると、注意を覚える線形融合モジュール(AALFモジュール)が提案されています。
影響係数を計算することにより、ピクセルごとの線形融合を実行します。
このメカニズムは、機能サイズを変化させずに、特徴を大きなセマンティックな違いと融合させることができます。
経験的評価は、提示された方法が代替アプローチよりも良い結果を達成することを示しています。
関連するコードは、https://github.com/avkskvl/das-f-modelにあります
要約(オリジナル)
Multispectral (MS) and panchromatic (PAN) images describe the same land surface, so these images not only have their own advantages, but also have a lot of similar information. In order to separate these similar information and their respective advantages, reduce the feature redundancy in the fusion stage. This paper introduces a diff-attention aware state space fusion model (DAS2F-Model) for multimodal remote sensing image classification. Based on the selective state space model, a cross-modal diff-attention module (CMDA-Module) is designed to extract and separate the common features and their respective dominant features of MS and PAN images. Among this, space preserving visual mamba (SPVM) retains image spatial features and captures local features by optimizing visual mamba’s input reasonably. Considering that features in the fusion stage will have large semantic differences after feature separation and simple fusion operations struggle to effectively integrate these significantly different features, an attention-aware linear fusion module (AALF-Module) is proposed. It performs pixel-wise linear fusion by calculating influence coefficients. This mechanism can fuse features with large semantic differences while keeping the feature size unchanged. Empirical evaluations indicate that the presented method achieves better results than alternative approaches. The relevant code can be found at:https://github.com/AVKSKVL/DAS-F-Model
arxiv情報
著者 | Wenping Ma,Boyou Xue,Mengru Ma,Chuang Chen,Hekai Zhang,Hao Zhu |
発行日 | 2025-04-23 12:34:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google