ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding

要約

視覚的質問応答は、自然言語と視覚理解の両方において重要なタスクである。しかし、VQAやCLEVRのような視覚質問応答のデータセットのほとんどは、「彼女の目は何色ですか」のような与えられた画像に固有の質問を人間が生成したものである。このような人間が生成した質問は比較的単純であり、特定のエンティティや属性に偏っていることがある。本論文では、画像に基づく新しい質問応答データセットであるChiQAを紹介する。このデータセットには、インターネットユーザが実際に発行した質問と、それに関連するオープンドメインの画像が含まれている。システムは、画像が質問に答えられるかどうかを判断する必要がある。これまでのVQAデータセットとは異なり、質問は実世界の画像に依存しないクエリであり、より多様で偏りのないものとなっている。従来の画像検索や画像キャプションのデータセットと比較すると、ChiQAは関連性だけでなく、より細かい視覚と言語推論を必要とする回答可能性をも測定しています。ChiQAには4万以上の質問と20万以上の質問-画像のペアが含まれている。各ペアには、完全回答、部分回答、無関係を示す3段階の2/1/0ラベルが付与されています。データ解析の結果、ChiQAには、接地、比較、読み取りを含む言語と視覚の両方に関する深い理解が必要であることがわかった。我々はALBEFのようないくつかの最先端の視覚言語モデルを評価し、ChiQAにはまだ大きな改善の余地があることを実証する。

要約(オリジナル)

Visual question answering is an important task in both natural language and vision understanding. However, in most of the public visual question answering datasets such as VQA, CLEVR, the questions are human generated that specific to the given image, such as `What color are her eyes?’. The human generated crowdsourcing questions are relatively simple and sometimes have the bias toward certain entities or attributes. In this paper, we introduce a new question answering dataset based on image-ChiQA. It contains the real-world queries issued by internet users, combined with several related open-domain images. The system should determine whether the image could answer the question or not. Different from previous VQA datasets, the questions are real-world image-independent queries that are more various and unbiased. Compared with previous image-retrieval or image-caption datasets, the ChiQA not only measures the relatedness but also measures the answerability, which demands more fine-grained vision and language reasoning. ChiQA contains more than 40K questions and more than 200K question-images pairs. A three-level 2/1/0 label is assigned to each pair indicating perfect answer, partially answer and irrelevant. Data analysis shows ChiQA requires a deep understanding of both language and vision, including grounding, comparisons, and reading. We evaluate several state-of-the-art visual-language models such as ALBEF, demonstrating that there is still a large room for improvements on ChiQA.

arxiv情報

著者 Bingning Wang,Feiyang Lv,Ting Yao,Yiming Yuan,Jin Ma,Yu Luo,Haijin Liang
発行日 2022-08-05 07:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク