RSCaMa: Remote Sensing Image Change Captioning with State Space Model

要約

リモート センシング画像変化キャプション (RSICC) は、多時間リモート センシング画像の表面変化を特定し、自然言語で説明することを目的としています。
現在の方法は通常、エンコーダ/デコーダ アーキテクチャに依存しており、バックボーンによって抽出されたバイテンポラル特徴を処理するための洗練されたネックの設計に重点を置いています。
最近、状態空間モデル (SSM)、特に Mamba は、その効率的な特徴選択モデリング機能により、多くの分野で優れたパフォーマンスを実証しています。
ただし、RSICC タスクにおけるそれらの可能性はまだ解明されていません。
この論文では、RSICC に Mamba を導入し、RSCaMa (Remote Sensing Change Captioning Mamba) と呼ばれる新しいアプローチを提案します。
具体的には、シャム バックボーンを利用してバイタイム特徴を抽出し、空間差分誘導 SSM (SD-SSM) と時間移動 SSM (TT-SSM) で構成される複数の CaMa レイヤーを通じて処理します。
SD-SSM は差分機能を使用して変化の認識を強化しますが、TT-SSM はトークンごとのクロススキャン方式で両時間的インタラクションを促進します。
実験結果は、CaMa 層の有効性を検証し、RSCaMa の優れたパフォーマンスと、RSICC タスクにおける Mamba の可能性を実証しています。
さらに、Mamba、因果的注意メカニズムを備えた GPT スタイルのデコーダー、およびクロスアテンション メカニズムを備えた Transformer デコーダーを含む 3 つの言語デコーダーの効果を体系的に比較します。
これは、将来の RSICC 研究に貴重な洞察を提供します。
コードは https://github.com/Chen-Yang-Liu/RSCaMa で入手できます。

要約(オリジナル)

Remote Sensing Image Change Captioning (RSICC) aims to identify surface changes in multi-temporal remote sensing images and describe them in natural language. Current methods typically rely on an encoder-decoder architecture and focus on designing a sophisticated neck to process bi-temporal features extracted by the backbone. Recently, State Space Models (SSMs), especially Mamba, have demonstrated outstanding performance in many fields, owing to their efficient feature-selective modelling capability. However, their potential in the RSICC task remains unexplored. In this paper, we introduce Mamba into RSICC and propose a novel approach called RSCaMa (Remote Sensing Change Captioning Mamba). Specifically, we utilize Siamese backbones to extract bi-temporal features, which are then processed through multiple CaMa layers consisting of Spatial Difference-guided SSM (SD-SSM) and Temporal Traveling SSM (TT-SSM). SD-SSM uses differential features to enhance change perception, while TT-SSM promotes bitemporal interactions in a token-wise cross-scanning manner. Experimental results validate the effectiveness of CaMa layers and demonstrate the superior performance of RSCaMa, as well as the potential of Mamba in the RSICC task. Additionally, we systematically compare the effects of three language decoders, including Mamba, GPT-style decoder with causal attention mechanism, and Transformer decoder with cross-attention mechanism. This provides valuable insights for future RSICC research. The code will be available at https://github.com/Chen-Yang-Liu/RSCaMa

arxiv情報

著者 Chenyang Liu,Keyan Chen,Bowen Chen,Haotian Zhang,Zhengxia Zou,Zhenwei Shi
発行日 2024-04-29 17:31:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク