Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images

要約

Visual Question Answering for Remote Sensing (RSVQA) は、リモート センシング画像の内容に関する自然言語の質問に答えることを目的としたタスクです。
したがって、視覚的特徴の抽出は VQA パイプラインの重要なステップとなります。
このプロセスに注意メカニズムを組み込むことにより、モデルは画像の顕著な領域に選択的に焦点を合わせ、特定の質問に対して最も関連性の高い視覚情報を優先する機能を獲得します。
この研究では、セグメンテーションによって導かれるアテンション メカニズムを RSVQA パイプラインに埋め込むことを提案します。
私たちは、セグメンテーションは、特定のオブジェクトや関心領域の基礎となる視覚情報の文脈上の理解を提供することにより、注意を誘導する上で重要な役割を果たすと主張します。
この方法論を評価するために、16 のセグメンテーション クラスと質問と回答のペアで注釈が付けられた非常に高解像度の RGB オルソ写真を活用する新しい VQA データセットを提供します。
私たちの研究では、新しい方法論の有望な結果が示されており、提案されたデータセットに対する従来の方法と比較して全体の精度がほぼ 10% 向上しています。

要約(オリジナル)

Visual Question Answering for Remote Sensing (RSVQA) is a task that aims at answering natural language questions about the content of a remote sensing image. The visual features extraction is therefore an essential step in a VQA pipeline. By incorporating attention mechanisms into this process, models gain the ability to focus selectively on salient regions of the image, prioritizing the most relevant visual information for a given question. In this work, we propose to embed an attention mechanism guided by segmentation into a RSVQA pipeline. We argue that segmentation plays a crucial role in guiding attention by providing a contextual understanding of the visual information, underlying specific objects or areas of interest. To evaluate this methodology, we provide a new VQA dataset that exploits very high-resolution RGB orthophotos annotated with 16 segmentation classes and question/answer pairs. Our study shows promising results of our new methodology, gaining almost 10% of overall accuracy compared to a classical method on the proposed dataset.

arxiv情報

著者 Lucrezia Tosato,Hichem Boussaid,Flora Weissgerber,Camille Kurtz,Laurent Wendling,Sylvain Lobry
発行日 2024-07-11 16:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク