要約
近年、ハイパースペクトル画像分類(HSIC)において、その自己注意メカニズムにより強力な分類性能を発揮するトランスフォーマーが大きな注目を集めている。しかし、これらのモデルは、その複雑さがシーケンス長に比例して二次関数的に増大するため、計算効率において大きな課題に直面している。状態空間モデルを活用したMambaアーキテクチャは、Transformersに代わるより効率的な選択肢を提供する。本論文では、空間スペクトルモーフォロジカルマンバ(MorpMamba)モデルを紹介する。MorpMambaモデルでは、まずトークン生成モジュールがハイパースペクトル画像(HSI)パッチを空間スペクトルトークンに変換する。これらのトークンは次に、深さ方向に分離可能な畳み込み演算を用いて構造情報と形状情報を計算するモルフォロジー・ブロックによって処理される。抽出された情報は、HSIサンプルの中心領域に基づいて空間およびスペクトルのトークンを調整する特徴強調モジュールで強調され、各ブロック内での効果的な情報融合が可能になる。その後、トークンは、特徴空間をさらに改善するために、マルチヘッド自己アテンションブロックにおいて改良される。最後に、結合された情報は、分類と地上真理マップ作成のために状態空間ブロックに供給される。広く使われているハイパースペクトル(HS)データセットでの実験により、MorpMambaモデルがCNNモデルとTransformerモデルの両方を(パラメトリック効率で)上回ることが実証された。
要約(オリジナル)
In recent years, Transformers have garnered significant attention for Hyperspectral Image Classification (HSIC) due to their self-attention mechanism, which provides strong classification performance. However, these models face major challenges in computational efficiency, as their complexity increases quadratically with the sequence length. The Mamba architecture, leveraging a State Space Model, offers a more efficient alternative to Transformers. This paper introduces the Spatial-Spectral Morphological Mamba (MorpMamba) model. In the MorpMamba model, a token generation module first converts the Hyperspectral Image (HSI) patch into spatial-spectral tokens. These tokens are then processed by a morphology block, which computes structural and shape information using depthwise separable convolutional operations. The extracted information is enhanced in a feature enhancement module that adjusts the spatial and spectral tokens based on the center region of the HSI sample, allowing for effective information fusion within each block. Subsequently, the tokens are refined in a multi-head self-attention block to further improve the feature space. Finally, the combined information is fed into the state space block for classification and the creation of the ground truth map. Experiments on widely used Hyperspectral (HS) datasets demonstrate that the MorpMamba model outperforms (parametric efficiency) both CNN and Transformer models.
arxiv情報
著者 | Muhammad Ahmad,Muhammad Hassaan Farooq Butt,Muhammad Usama,Adil Mehmood Khan,Manual Mazzara,Salvatore Distenano |
発行日 | 2024-08-02 16:28:51+00:00 |
arxivサイト | arxiv_id(pdf) |