Making the V in Text-VQA Matter

要約

テキストベースの VQA は、画像内に存在するテキストを読んで質問に答えることを目的としています。
VQA タスクと比較して、シーンとテキストの関係を大量に理解する必要があります。
最近の研究では、データセット内の質問と回答のペアは画像内に存在するテキストに重点が置かれていますが、視覚的な特徴はあまり重要視されておらず、一部の質問は画像を理解する必要がないことが示されています。
このデータセットでトレーニングされたモデルは、視覚的なコンテキストの理解の欠如により、偏った回答を予測します。
たとえば、「看板には何が書いてありますか?」のような質問では、モデルによって予測される答えは常に「STOP」であるため、モデルは画像を無視します。
これらの問題に対処するために、テキストベースの VQA の外部知識として VQA データセットを使用して、OCR 特徴と質問特徴とともに視覚特徴を学習する方法 (TextVQA で V を重要にする) を提案します。
具体的には、TextVQA データセットと VQA データセットを結合し、この結合されたデータセットでモデルをトレーニングします。
このようなシンプルでありながら効果的なアプローチにより、画像の特徴と画像内に存在するテキストの間の理解と相関性が高まり、質問へのより適切な回答に役立ちます。
さらに、さまざまなデータセットでモデルをテストし、その定性的結果と定量的結果を比較します。

要約(オリジナル)

Text-based VQA aims at answering questions by reading the text present in the images. It requires a large amount of scene-text relationship understanding compared to the VQA task. Recent studies have shown that the question-answer pairs in the dataset are more focused on the text present in the image but less importance is given to visual features and some questions do not require understanding the image. The models trained on this dataset predict biased answers due to the lack of understanding of visual context. For example, in questions like ‘What is written on the signboard?’, the answer predicted by the model is always ‘STOP’ which makes the model to ignore the image. To address these issues, we propose a method to learn visual features (making V matter in TextVQA) along with the OCR features and question features using VQA dataset as external knowledge for Text-based VQA. Specifically, we combine the TextVQA dataset and VQA dataset and train the model on this combined dataset. Such a simple, yet effective approach increases the understanding and correlation between the image features and text present in the image, which helps in the better answering of questions. We further test the model on different datasets and compare their qualitative and quantitative results.

arxiv情報

著者 Shamanthak Hegde,Soumya Jahagirdar,Shankar Gangisetty
発行日 2023-08-01 05:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク