要約
我々は、Encyclopedic-VQA を提案します。Encyclopedic-VQA は、きめの細かいカテゴリとインスタンスの詳細なプロパティに関する視覚的な質問を特徴とする大規模な視覚的質問応答 (VQA) データセットです。
これには、それぞれが (最大) 5 つの画像と一致する 221,000 の一意の質問と回答のペアが含まれており、合計 100 万の VQA サンプルになります。
さらに、私たちのデータセットには、ウィキペディアから派生した管理された知識ベースが付属しており、各答えを裏付ける証拠をマークします。
経験的に、私たちのデータセットは、大規模な視覚 + 言語モデルのパフォーマンスが低いため、困難な課題を提示していることがわかります。PaLI [14] は OK-VQA [37] では最先端ですが、それでも 13.0 しか達成できません。
データセットの精度 %。
さらに、知識ベースから関連情報を取得するメカニズムを備えた大規模モデルを強化することで、百科事典的な質問への答えが進歩することを実験的に示しています。
完全な検索を行うオラクルの実験では、データセットのシングルホップ部分で 87.0% の精度が達成され、自動検索で強化されたプロトタイプでは 48.8% の精度が得られました。
私たちは、私たちのデータセットにより、検索拡張視覚 + 言語モデルに関する将来の研究が可能になると信じています。
要約(オリジナル)
We propose Encyclopedic-VQA, a large scale visual question answering (VQA) dataset featuring visual questions about detailed properties of fine-grained categories and instances. It contains 221k unique question+answer pairs each matched with (up to) 5 images, resulting in a total of 1M VQA samples. Moreover, our dataset comes with a controlled knowledge base derived from Wikipedia, marking the evidence to support each answer. Empirically, we show that our dataset poses a hard challenge for large vision+language models as they perform poorly on our dataset: PaLI [14] is state-of-the-art on OK-VQA [37], yet it only achieves 13.0% accuracy on our dataset. Moreover, we experimentally show that progress on answering our encyclopedic questions can be achieved by augmenting large models with a mechanism that retrieves relevant information from the knowledge base. An oracle experiment with perfect retrieval achieves 87.0% accuracy on the single-hop portion of our dataset, and an automatic retrieval-augmented prototype yields 48.8%. We believe that our dataset enables future research on retrieval-augmented vision+language models.
arxiv情報
著者 | Thomas Mensink,Jasper Uijlings,Lluis Castrejon,Arushi Goel,Felipe Cadar,Howard Zhou,Fei Sha,André Araujo,Vittorio Ferrari |
発行日 | 2023-06-15 16:03:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google