REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering

要約

このホワイトペーパーでは、知識ベースの視覚的質問応答(VQA)での視覚的表現を再検討し、地域情報をより適切に使用することでパフォーマンスを大幅に向上できることを示します。
視覚的表現は従来のVQAで広く研究されていますが、知識ベースのVQAでは、これら2つのタスクが共通の精神を共有している、つまり、質問に答えるために視覚的な入力に依存している場合でも、十分に検討されていません。
具体的には、ほとんどの最先端の知識ベースのVQA手法で、次のことを観察します。1)視覚的特徴は、画像全体から、または知識を取得するためのスライディングウィンドウ方式で抽出され、オブジェクト領域内/オブジェクト領域間の重要な関係
無視されます。
2)視覚的特徴は、ある程度直感に反する最終的な回答モデルでは十分に活用されていません。
これらの観察に基づいて、我々は新しい知識ベースのVQAメソッドREVIVEを提案します。これは、知識検索段階だけでなく、応答モデルでもオブジェクト領域の明示的な情報を利用しようとします。
主な動機は、オブジェクト領域と固有の関係が知識ベースのVQAにとって重要であるということです。
標準のOK-VQAデータセットで広範な実験を実行し、新しい最先端のパフォーマンス、つまり58.0%の精度を達成し、以前の最先端の方法を大幅に上回ります(+ 3.6%)。
また、詳細な分析を行い、知識ベースのVQAのさまざまなフレームワークコンポーネントで地域情報の必要性を示します。

要約(オリジナル)

This paper revisits visual representation in knowledge-based visual question answering (VQA) and demonstrates that using regional information in a better way can significantly improve the performance. While visual representation is extensively studied in traditional VQA, it is under-explored in knowledge-based VQA even though these two tasks share the common spirit, i.e., rely on visual input to answer the question. Specifically, we observe that in most state-of-the-art knowledge-based VQA methods: 1) visual features are extracted either from the whole image or in a sliding window manner for retrieving knowledge, and the important relationship within/among object regions is neglected; 2) visual features are not well utilized in the final answering model, which is counter-intuitive to some extent. Based on these observations, we propose a new knowledge-based VQA method REVIVE, which tries to utilize the explicit information of object regions not only in the knowledge retrieval stage but also in the answering model. The key motivation is that object regions and inherent relationships are important for knowledge-based VQA. We perform extensive experiments on the standard OK-VQA dataset and achieve new state-of-the-art performance, i.e., 58.0% accuracy, surpassing previous state-of-the-art method by a large margin (+3.6%). We also conduct detailed analysis and show the necessity of regional information in different framework components for knowledge-based VQA.

arxiv情報

著者 Yuanze Lin,Yujia Xie,Dongdong Chen,Yichong Xu,Chenguang Zhu,Lu Yuan
発行日 2022-06-02 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク