RSMamba: Remote Sensing Image Classification with State Space Model


畳み込みニューラル ネットワーク (CNN) とトランスフォーマーの最近の進歩により、分類精度が著しく向上しました。
それにもかかわらず、特にリモート センシング シナリオの複雑さと多様性、および時空間解像度の変動を考慮すると、リモート センシング シーンの分類は依然として大きな課題です。
この論文では、リモート センシング画像分類のための新しいアーキテクチャである RSMamba を紹介します。
RSMamba は状態空間モデル (SSM) に基づいており、Mamba として知られる効率的なハードウェア認識設計が組み込まれています。
因果シーケンスのみをモデル化でき、二次元画像データに適応できないバニラ Mamba の制限を克服するために、非因果データをモデル化する Mamba の能力を強化する動的なマルチパス アクティベーション メカニズムを提案します。
特に、RSMamba はバニラ Mamba の固有のモデリング メカニズムを維持しながら、複数のリモート センシング画像分類データセットにわたって優れたパフォーマンスを示します。
これは、RSMamba が将来のビジュアル基盤モデルのバックボーンとして機能する大きな可能性を秘めていることを示しています。
コードは \url{} で入手できます。


Remote sensing image classification forms the foundation of various understanding tasks, serving a crucial function in remote sensing image interpretation. The recent advancements of Convolutional Neural Networks (CNNs) and Transformers have markedly enhanced classification accuracy. Nonetheless, remote sensing scene classification remains a significant challenge, especially given the complexity and diversity of remote sensing scenarios and the variability of spatiotemporal resolutions. The capacity for whole-image understanding can provide more precise semantic cues for scene discrimination. In this paper, we introduce RSMamba, a novel architecture for remote sensing image classification. RSMamba is based on the State Space Model (SSM) and incorporates an efficient, hardware-aware design known as the Mamba. It integrates the advantages of both a global receptive field and linear modeling complexity. To overcome the limitation of the vanilla Mamba, which can only model causal sequences and is not adaptable to two-dimensional image data, we propose a dynamic multi-path activation mechanism to augment Mamba’s capacity to model non-causal data. Notably, RSMamba maintains the inherent modeling mechanism of the vanilla Mamba, yet exhibits superior performance across multiple remote sensing image classification datasets. This indicates that RSMamba holds significant potential to function as the backbone of future visual foundation models. The code will be available at \url{}.


著者 Keyan Chen,Bowen Chen,Chenyang Liu,Wenyuan Li,Zhengxia Zou,Zhenwei Shi
発行日 2024-03-28 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク