Copy-Move Forgery Detection and Question Answering for Remote Sensing Image

要約

本稿では、リモートセンシング複写移動質問応答(RSCMQA)のタスクを紹介する。従来のリモートセンシング視覚質問応答(RSVQA)とは異なり、RSCMQAは複雑な改ざんシナリオを解釈し、物体間の関係を推測することに重点を置く。国防安全保障と土地資源監視の実用的なニーズに基づき、我々はRS-CMQA-2.1Mと名付けたリモートセンシング画像コピームーブ問題回答のための正確で包括的なグローバルデータセットを開発した。これらの画像は14カ国29地域から収集した。さらに、リモートセンシング分野における長年の課題であるロングテールデータに対処するため、バランスのとれたデータセットRS-CMQA-Bを改良した。さらに、我々は、地域識別可能なガイド付きマルチモーダルCMQAモデルを提案し、これは、改ざん元領域と改ざん元領域の違いやつながりに関するプロンプトを活用することで、改ざん画像に関する質問への回答精度を向上させる。広範な実験により、我々の手法が、一般的なVQAやRSVQAモデルと比較して、RS-CMQAのより強力なベンチマークを提供することが実証された。我々のデータセットとコードはhttps://github.com/shenyedepisa/RSCMQA。

要約(オリジナル)

This paper introduces the task of Remote Sensing Copy-Move Question Answering (RSCMQA). Unlike traditional Remote Sensing Visual Question Answering (RSVQA), RSCMQA focuses on interpreting complex tampering scenarios and inferring relationships between objects. Based on the practical needs of national defense security and land resource monitoring, we have developed an accurate and comprehensive global dataset for remote sensing image copy-move question answering, named RS-CMQA-2.1M. These images were collected from 29 different regions across 14 countries. Additionally, we have refined a balanced dataset, RS-CMQA-B, to address the long-standing issue of long-tail data in the remote sensing field. Furthermore, we propose a region-discriminative guided multimodal CMQA model, which enhances the accuracy of answering questions about tampered images by leveraging prompt about the differences and connections between the source and tampered domains. Extensive experiments demonstrate that our method provides a stronger benchmark for RS-CMQA compared to general VQA and RSVQA models. Our dataset and code are available at https://github.com/shenyedepisa/RSCMQA.

arxiv情報

著者 Ze Zhang,Enyuan Zhao,Ziyi Wan,Jie Nie,Xinyue Liang,Lei Huang
発行日 2024-12-03 17:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク