Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification

要約

ハイパースペクトル画像 (HSI) 分類は、特にディープラーニング技術の進歩により、リモート センシング (RS) 分野で極めて重要です。
リカレント ニューラル ネットワーク (RNN) やトランスフォーマーなどの自然言語処理 (NLP) 分野から適応されたシーケンシャル モデルは、このタスクに合わせて調整されており、独自の視点を提供します。
ただし、いくつかの課題が残っています。1) RNN は中心的な特徴の集約に苦労しており、干渉ピクセルに敏感です、2) トランスフォーマーは大量の計算リソースを必要とし、限られた HSI トレーニング サンプルではパフォーマンスが低下することが多く、3) 画像をシーケンス データに変換するための現在のスキャン方法は次のとおりです。
単純で非効率的。
これに応えて、この研究では、HSI 分類に革新的なマンバインマンバ (MiM) アーキテクチャを導入します。これは、このタスクに状態空間モデル (SSM) を導入する最初の試みです。
MiM モデルには、1) 画像をシーケンス データに変換するための新しい集中型マンバ クロス スキャン (MCS) メカニズム、2) セマンティック トークンであるガウス減衰マスク (GDM) を組み込んだトークン化マンバ (T-Mamba) エンコーダが含まれています。
学習器 (STL)、機能の生成と集中を強化するためのセマンティック トークン フューザー (STF)、および 3) デコード効率を向上させるためのマルチスケール損失設計と組み合わせた加重 MCS 融合 (WMF) モジュール。
固定された独立したトレーニング テスト サンプルを含む 3 つの公開 HSI データセットからの実験結果は、私たちの手法が既存のベースラインや最先端の​​アプローチよりも優れていることを実証し、HSI アプリケーションにおけるその有効性と可能性を強調しています。

要約(オリジナル)

Hyperspectral image (HSI) classification is pivotal in the remote sensing (RS) field, particularly with the advancement of deep learning techniques. Sequential models, adapted from the natural language processing (NLP) field such as Recurrent Neural Networks (RNNs) and Transformers, have been tailored to this task, offering a unique viewpoint. However, several challenges persist 1) RNNs struggle with centric feature aggregation and are sensitive to interfering pixels, 2) Transformers require significant computational resources and often underperform with limited HSI training samples, and 3) Current scanning methods for converting images into sequence-data are simplistic and inefficient. In response, this study introduces the innovative Mamba-in-Mamba (MiM) architecture for HSI classification, the first attempt of deploying State Space Model (SSM) in this task. The MiM model includes 1) A novel centralized Mamba-Cross-Scan (MCS) mechanism for transforming images into sequence-data, 2) A Tokenized Mamba (T-Mamba) encoder that incorporates a Gaussian Decay Mask (GDM), a Semantic Token Learner (STL), and a Semantic Token Fuser (STF) for enhanced feature generation and concentration, and 3) A Weighted MCS Fusion (WMF) module coupled with a Multi-Scale Loss Design to improve decoding efficiency. Experimental results from three public HSI datasets with fixed and disjoint training-testing samples demonstrate that our method outperforms existing baselines and state-of-the-art approaches, highlighting its efficacy and potential in HSI applications.

arxiv情報

著者 Weilian Zhou,Sei-Ichiro Kamata,Haipeng Wang,Man-Sing Wong,Huiying,Hou
発行日 2024-05-20 13:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク