RSCaMa: Remote Sensing Image Change Captioning with State Space Model

要約

リモートセンシング画像変化キャプション(RSICC)は、変化したオブジェクトカテゴリ、位置、変化するオブジェクトのダイナミクス(追加または消滅など)を含む、多時間リモートセンシング画像間の表面変化を言語で記述することを目的としています。
これは、バイタイム特徴の空間的および時間的モデリングに課題をもたらします。
以前の方法は空間変化の知覚において進歩しているにもかかわらず、共同時空間モデリングには依然として弱点があります。
これに対処するために、本論文では、複数の CaMa 層を通じて効率的な共同時空間モデリングを実現し、バイタイム特徴の反復的改善を可能にする新しい RSCaMa モデルを提案します。
効率的な空間モデリングを実現するために、グローバル受容野と線形複雑性を備えた最近人気の Mamba (状態空間モデル) を RSICC タスクに導入し、以前の CNN の制限を克服する空間差分認識 SSM (SD-SSM) を提案します。
受容野と計算の複雑さにおけるTransformerベースのメソッド。
SD-SSM は、空間変化を鋭く捉えるモデルの能力を強化します。
効率的な時間モデリングの観点から、Mamba の時間走査特性と RSICC の時間性との間の潜在的な相関関係を考慮して、バイタイム特徴を時間横断的に走査する Temporal-Traversing SSM (TT-SSM) を提案します。
これにより、モデルの時間的理解と情報の相互作用が強化されます。
実験では、効率的な共同時空間モデリングの有効性を検証し、RSICC タスクにおける RSCaMa の優れたパフォーマンスと Mamba の可能性を実証します。
さらに、Mamba、GPT スタイル デコーダー、Transformer デコーダーを含む 3 つの異なる言語デコーダーを体系的に比較し、将来の RSICC 研究に貴重な洞察を提供します。
コードは \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}} で入手できます。

要約(オリジナル)

Remote Sensing Image Change Captioning (RSICC) aims to describe surface changes between multi-temporal remote sensing images in language, including the changed object categories, locations, and dynamics of changing objects (e.g., added or disappeared). This poses challenges to spatial and temporal modeling of bi-temporal features. Despite previous methods progressing in the spatial change perception, there are still weaknesses in joint spatial-temporal modeling. To address this, in this paper, we propose a novel RSCaMa model, which achieves efficient joint spatial-temporal modeling through multiple CaMa layers, enabling iterative refinement of bi-temporal features. To achieve efficient spatial modeling, we introduce the recently popular Mamba (a state space model) with a global receptive field and linear complexity into the RSICC task and propose the Spatial Difference-aware SSM (SD-SSM), overcoming limitations of previous CNN- and Transformer-based methods in the receptive field and computational complexity. SD-SSM enhances the model’s ability to capture spatial changes sharply. In terms of efficient temporal modeling, considering the potential correlation between the temporal scanning characteristics of Mamba and the temporality of the RSICC, we propose the Temporal-Traversing SSM (TT-SSM), which scans bi-temporal features in a temporal cross-wise manner, enhancing the model’s temporal understanding and information interaction. Experiments validate the effectiveness of the efficient joint spatial-temporal modeling and demonstrate the outstanding performance of RSCaMa and the potential of the Mamba in the RSICC task. Additionally, we systematically compare three different language decoders, including Mamba, GPT-style decoder, and Transformer decoder, providing valuable insights for future RSICC research. The code will be available at \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}}

arxiv情報

著者 Chenyang Liu,Keyan Chen,Bowen Chen,Haotian Zhang,Zhengxia Zou,Zhenwei Shi
発行日 2024-05-21 13:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク