Robust Change Captioning in Remote Sensing: SECOND-CC Dataset and MModalCC Framework

要約

リモート センシング変化キャプション (RSICC) は、両時間画像間の変化を自然言語で説明することを目的としています。
既存の方法は、照明の違い、視点の変更、ぼかし効果などの課題の下では失敗することが多く、特に変化のない領域で不正確さが生じます。
さらに、異なる空間解像度で取得され、位置合わせエラーのある画像は、キャプションに影響を与える傾向があります。
これらの問題に対処するために、高解像度の RGB 画像ペア、セマンティック セグメンテーション マップ、および現実世界の多様なシナリオを特徴とする新しい RSICC データセットである SECOND-CC を紹介します。
SECOND-CC には、6,041 対の両時間 RS 画像と画像間の違いを説明する 30,205 文が含まれています。
さらに、クロスモーダル クロス アテンション (CMCA) やマルチモーダル ゲート クロス アテンション (MGCA) などの高度なアテンション メカニズムを使用して、セマンティック データとビジュアル データを統合するマルチモーダル フレームワークである MModalCC を提案します。
詳細なアブレーション研究と注意の視覚化により、RSICC の課題に対処する有効性と能力がさらに実証されています。
包括的な実験により、MModalCC は、RSICCformer、Chg2Cap、PSNet などの最先端の RSICC 手法を上回り、BLEU4 スコアで +4.6% 向上、CIDEr スコアで +9.6% 向上することが示されています。
今後の研究を促進するために、データセットとコードベースを https://github.com/ChangeCapsInRS/SecondCC で公開します。

要約(オリジナル)

Remote sensing change captioning (RSICC) aims to describe changes between bitemporal images in natural language. Existing methods often fail under challenges like illumination differences, viewpoint changes, blur effects, leading to inaccuracies, especially in no-change regions. Moreover, the images acquired at different spatial resolutions and have registration errors tend to affect the captions. To address these issues, we introduce SECOND-CC, a novel RSICC dataset featuring high-resolution RGB image pairs, semantic segmentation maps, and diverse real-world scenarios. SECOND-CC which contains 6,041 pairs of bitemporal RS images and 30,205 sentences describing the differences between images. Additionally, we propose MModalCC, a multimodal framework that integrates semantic and visual data using advanced attention mechanisms, including Cross-Modal Cross Attention (CMCA) and Multimodal Gated Cross Attention (MGCA). Detailed ablation studies and attention visualizations further demonstrate its effectiveness and ability to address RSICC challenges. Comprehensive experiments show that MModalCC outperforms state-of-the-art RSICC methods, including RSICCformer, Chg2Cap, and PSNet with +4.6% improvement on BLEU4 score and +9.6% improvement on CIDEr score. We will make our dataset and codebase publicly available to facilitate future research at https://github.com/ChangeCapsInRS/SecondCC

arxiv情報

著者 Ali Can Karaca,M. Enes Ozelbas,Saadettin Berber,Orkhan Karimli,Turabi Yildirim,M. Fatih Amasyali
発行日 2025-01-17 09:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク