Robust Visual Question Answering: Datasets, Methods, and Future Challenges

要約

視覚的な質問応答には、画像と自然言語の質問が与えられた場合に、正確な自然言語による回答を提供するシステムが必要です。
ただし、以前の一般的な VQA 手法では、答えを予測する前に画像をグラウンディングするなど、適切な動作を学習するのではなく、トレーニング データに存在するバイアスを記憶する傾向がよくあることが広く認識されています。
したがって、これらの方法は通常、ディストリビューション内では高いパフォーマンスを達成しますが、ディストリビューション外ではパフォーマンスが低くなります。
近年、VQA のロバスト性を評価および強化するために、さまざまなデータセットとバイアス除去手法がそれぞれ提案されています。
このペーパーでは、この新たな流行に焦点を当てた最初の包括的な調査を提供します。
具体的には、まず、配布内および配布外の観点からデータセットの開発プロセスの概要を説明します。
次に、これらのデータセットで採用されている評価指標を調べます。
第三に、既存のバイアス除去手法の開発プロセス、類似点と相違点、堅牢性の比較、および技術的特徴を表す類型を提案します。
さらに、VQA 上の代表的な視覚および言語事前トレーニング モデルの堅牢性を分析し、議論します。
最後に、利用可能な文献と実験分析の徹底的なレビューを通じて、さまざまな観点から将来の研究の重要な領域について議論します。

要約(オリジナル)

Visual question answering requires a system to provide an accurate natural language answer given an image and a natural language question. However, it is widely recognized that previous generic VQA methods often exhibit a tendency to memorize biases present in the training data rather than learning proper behaviors, such as grounding images before predicting answers. Therefore, these methods usually achieve high in-distribution but poor out-of-distribution performance. In recent years, various datasets and debiasing methods have been proposed to evaluate and enhance the VQA robustness, respectively. This paper provides the first comprehensive survey focused on this emerging fashion. Specifically, we first provide an overview of the development process of datasets from in-distribution and out-of-distribution perspectives. Then, we examine the evaluation metrics employed by these datasets. Thirdly, we propose a typology that presents the development process, similarities and differences, robustness comparison, and technical features of existing debiasing methods. Furthermore, we analyze and discuss the robustness of representative vision-and-language pre-training models on VQA. Finally, through a thorough review of the available literature and experimental analysis, we discuss the key areas for future research from various viewpoints.

arxiv情報

著者 Jie Ma,Pinghui Wang,Dechen Kong,Zewei Wang,Jun Liu,Hongbin Pei,Junzhou Zhao
発行日 2023-07-21 10:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 パーマリンク