Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

要約

この論文では、質問に答えるために外部知識にアクセスする必要がある、視覚的な質問応答タスクのカテゴリを研究します。
このカテゴリは、外部知識視覚的質問応答 (OK-VQA) と呼ばれます。
OK-VQA システムの開発における主要なステップは、指定されたマルチモーダル クエリに関連するドキュメントを取得することです。
このタスク用の現在の最先端の非対称高密度検索モデルでは、マルチモーダル クエリ エンコーダとユニモーダル ドキュメント エンコーダを備えたアーキテクチャが使用されています。
このようなアーキテクチャでは、効果的なパフォーマンスを得るために大量のトレーニング データが必要になります。
OK-VQAタスクのパッセージ検索モデルを事前トレーニングするための自動データ生成パイプラインを提案します。
提案されたアプローチにより、現在の最先端の非対称アーキテクチャと比較して、Precision@5 が 26.9% 向上します。
さらに、提案された事前トレーニングアプローチは、ゼロショット検索シナリオで優れた能力を示します。

要約(オリジナル)

This paper studies a category of visual question answering tasks, in which accessing external knowledge is necessary for answering the questions. This category is called outside-knowledge visual question answering (OK-VQA). A major step in developing OK-VQA systems is to retrieve relevant documents for the given multi-modal query. Current state-of-the-art asymmetric dense retrieval model for this task uses an architecture with a multi-modal query encoder and a uni-modal document encoder. Such an architecture requires a large amount of training data for effective performance. We propose an automatic data generation pipeline for pre-training passage retrieval models for OK-VQA tasks. The proposed approach leads to 26.9% Precision@5 improvements compared to the current state-of-the-art asymmetric architecture. Additionally, the proposed pre-training approach exhibits a good ability in zero-shot retrieval scenarios.

arxiv情報

著者 Alireza Salemi,Mahta Rafiee,Hamed Zamani
発行日 2023-06-28 18:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR パーマリンク