SAR Strikes Back: A New Hope for RSVQA


リモート センシングによる視覚的質問応答 (RSVQA) は、衛星画像から情報を自動的に抽出し、質問を処理して画像からテキスト形式で回答を予測し、画像の解釈を支援するタスクです。
異なるスペクトル帯域と解像度の光学画像から情報を抽出するためのさまざまな方法が提案されていますが、合成開口レーダー (SAR) 画像からの疑問に答える方法は提案されていません。
SAR 画像は現場から電磁情報を取得し、雲などの大気条件の影響をあまり受けません。
この作業の目的は、RSVQA タスクに SAR を導入し、このモダリティを使用する最適な方法を見つけることです。
私たちの研究では、SAR と光学データの両方からの情報を考慮して、RSVQA タスクのさまざまなパイプラインに関する研究を実行します。
この目的のために、RSVQA フレームワークでの SAR 画像の導入を可能にするデータセットも紹介します。
SAR モダリティを含めるために 2 つの異なるモデルを提案します。
1 つ目は、SAR モダリティに追加のエンコーダーを追加するエンドツーエンドの方法です。
2 番目のアプローチでは、2 段階のフレームワークに基づいて構築します。
まず、関連情報が SAR から抽出され、オプションで光学データも抽出されます。
次に、この情報は自然言語に翻訳され、言語モデルのみに依存して答えを提供する 2 番目のステップで使用されます。
2 番目のパイプラインにより、SAR 画像のみで良好な結果が得られることがわかりました。
次に、SAR と光学画像を一緒に使用するさまざまなタイプの融合方法を試し、決定レベルでの融合が提案されたデータセットで最良の結果を達成することを発見しました。
我々は、SAR データが光学モダリティと融合すると、特に水域などの特定の土地被覆クラスに関連する質問に対して追加情報を提供することを示します。


Remote sensing visual question answering (RSVQA) is a task that automatically extracts information from satellite images and processes a question to predict the answer from the images in textual form, helping with the interpretation of the image. While different methods have been proposed to extract information from optical images with different spectral bands and resolutions, no method has been proposed to answer questions from Synthetic Aperture Radar (SAR) images. SAR images capture electromagnetic information from the scene, and are less affected by atmospheric conditions, such as clouds. In this work, our objective is to introduce SAR in the RSVQA task, finding the best way to use this modality. In our research, we carry out a study on different pipelines for the task of RSVQA taking into account information from both SAR and optical data. To this purpose, we also present a dataset that allows for the introduction of SAR images in the RSVQA framework. We propose two different models to include the SAR modality. The first one is an end-to-end method in which we add an additional encoder for the SAR modality. In the second approach, we build on a two-stage framework. First, relevant information is extracted from SAR and, optionally, optical data. This information is then translated into natural language to be used in the second step which only relies on a language model to provide the answer. We find that the second pipeline allows us to obtain good results with SAR images alone. We then try various types of fusion methods to use SAR and optical images together, finding that a fusion at the decision level achieves the best results on the proposed dataset. We show that SAR data offers additional information when fused with the optical modality, particularly for questions related to specific land cover classes, such as water areas.


著者 Lucrezia Tosato,Flora Weissgerber,Laurent Wendling,Sylvain Lobry
発行日 2025-01-14 14:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク