要約
リモート センシングによる視覚的質問応答 (RSVQA) は、自然言語による人間と機械の対話を可能にすることで、一般の人々による俯瞰画像の使用に新たな機会をもたらします。
自然言語処理とコンピューター ビジョンの最近の進歩に基づいて、RSVQA の目標は、リモート センシング画像について自然言語で定式化された質問に答えることです。
言語理解はタスクを成功させるために不可欠ですが、RSVQA ではまだ十分に検討されていません。
特に、リモート センシング コミュニティでは言語バイアスの問題が見落とされることが多く、モデルの堅牢性に影響を与え、モデルのパフォーマンスについて誤った結論につながる可能性があります。
したがって、本研究は、ビジュアルブラインドモデル、敵対的テスト、およびデータセット分析という 3 つの分析戦略を使用して、RSVQA における言語バイアスの問題を強調することを目的としています。
この分析では、モデルとデータの両方に焦点を当てます。
さらに、問題に応じて、より有益で補完的な評価指標の使用を奨励します。
RSVQA における言語バイアスの重大性は、画像データを破棄するモデルのトレーニングと推論中の視覚入力の操作によって、これらすべての方法で明らかになります。
最後に、質問と回答の分布を詳細に分析すると、データ自体の問題の根本が明らかになります。
この分析研究のおかげで、リモート センシングのバイアスが標準の VQA よりも厳しいことが観察されました。これはおそらく、タスク用の既存のリモート センシング データセットの特性によるものです。
地理的な類似性と疎性、およびより単純な語彙と質問生成戦略。
RSVQA という有望な分野の開発には、新しく改善された偏りの少ないデータセットが必要であるように見えますが、将来の RSVQA 手法の結果を透過的に伝達するには、より多くの情報に基づいた相対的な評価指標が依然として非常に必要であることを示しています。
要約(オリジナル)
Remote sensing visual question answering (RSVQA) opens new opportunities for the use of overhead imagery by the general public, by enabling human-machine interaction with natural language. Building on the recent advances in natural language processing and computer vision, the goal of RSVQA is to answer a question formulated in natural language about a remote sensing image. Language understanding is essential to the success of the task, but has not yet been thoroughly examined in RSVQA. In particular, the problem of language biases is often overlooked in the remote sensing community, which can impact model robustness and lead to wrong conclusions about the performances of the model. Thus, the present work aims at highlighting the problem of language biases in RSVQA with a threefold analysis strategy: visual blind models, adversarial testing and dataset analysis. This analysis focuses both on model and data. Moreover, we motivate the use of more informative and complementary evaluation metrics sensitive to the issue. The gravity of language biases in RSVQA is then exposed for all of these methods with the training of models discarding the image data and the manipulation of the visual input during inference. Finally, a detailed analysis of question-answer distribution demonstrates the root of the problem in the data itself. Thanks to this analytical study, we observed that biases in remote sensing are more severe than in standard VQA, likely due to the specifics of existing remote sensing datasets for the task, e.g. geographical similarities and sparsity, as well as a simpler vocabulary and question generation strategies. While new, improved and less-biased datasets appear as a necessity for the development of the promising field of RSVQA, we demonstrate that more informed, relative evaluation metrics remain much needed to transparently communicate results of future RSVQA methods.
arxiv情報
著者 | Christel Chappuis,Eliot Walt,Vincent Mendez,Sylvain Lobry,Bertrand Le Saux,Devis Tuia |
発行日 | 2023-11-28 13:45:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google