Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification

要約

近年、自己注意メカニズムを備えたトランスフォーマーの出現により、ハイパースペクトル画像 (HSI) 分類に革命が起こりました。
ただし、これらのモデルは、シーケンスの長さに応じて複雑さが二次関数的に増加するため、計算効率において大きな課題に直面しています。
Mamba アーキテクチャは、状態空間モデル (SSM) を活用し、Transformers に代わるより効率的な代替手段を提供します。
この論文では、空間スペクトル形態学的マンバ (MorpMamba) モデルを紹介します。このモデルでは、トークン生成モジュールが最初に HSI パッチを空間スペクトル トークンに変換します。
これらのトークンは形態学的演算によって処理され、深さ方向に分離可能な畳み込み演算を使用して構造情報と形状情報を計算します。
抽出された情報は、HSI サンプルの中心領域に基づいて空間トークンとスペクトル トークンを調整する機能強化モジュールで強化され、各ブロック内で効果的な情報融合が可能になります。
その後、トークンはマルチヘッドセルフアテンションを通じて洗練され、特徴空間がさらに改善されます。
最後に、結合された情報が状態空間ブロックに入力されて、分類とグランド トゥルース マップの作成が行われます。
広く使用されている HSI データセットの実験では、MorpMamba モデルが CNN モデルと Transformer モデルの両方より優れたパフォーマンス (パラメトリック効率) を示しています。
ソース コードは \url{https://github.com/MHassaanButt/MorpMamba} で公開されます。

要約(オリジナル)

In recent years, the emergence of Transformers with self-attention mechanism has revolutionized the hyperspectral image (HSI) classification. However, these models face major challenges in computational efficiency, as their complexity increases quadratically with the sequence length. The Mamba architecture, leveraging a state space model (SSM), offers a more efficient alternative to Transformers. This paper introduces the Spatial-Spectral Morphological Mamba (MorpMamba) model in which, a token generation module first converts the HSI patch into spatial-spectral tokens. These tokens are then processed by morphological operations, which compute structural and shape information using depthwise separable convolutional operations. The extracted information is enhanced in a feature enhancement module that adjusts the spatial and spectral tokens based on the center region of the HSI sample, allowing for effective information fusion within each block. Subsequently, the tokens are refined through a multi-head self-attention which further improves the feature space. Finally, the combined information is fed into the state space block for classification and the creation of the ground truth map. Experiments on widely used HSI datasets demonstrate that the MorpMamba model outperforms (parametric efficiency) both CNN and Transformer models. The source code will be made publicly available at \url{https://github.com/MHassaanButt/MorpMamba}.

arxiv情報

著者 Muhammad Ahmad,Muhammad Hassaan Farooq Butt,Muhammad Usama,Adil Mehmood Khan,Manuel Mazzara,Salvatore Distefano,Hamad Ahmed Altuwaijri,Swalpa Kumar Roy,Jocelyn Chanussot,Danfeng Hong
発行日 2024-08-23 10:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク