Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering

要約

知識ベースのビジュアル質問応答 (KB-VQA) では、VQA システムが既存の知識ベースの知識を利用して、視覚に基づいた質問に答える必要があります。
KB-VQA に取り組むための強力なフレームワークである検索拡張ビジュアル質問応答 (RA-VQA) は、まず密パッセージ検索 (DPR) を使用して関連ドキュメントを取得し、次にそれらを使用して質問に回答します。
この論文では、RA-VQA における知識検索を大幅に改善する、きめ細かい遅延インタラクション マルチモーダル検索 (FLMR) を提案します。
FLMR は、RA-VQA の取得機能の 2 つの主要な制限に対処します。(1) 画像からテキストへの変換によって取得される画像表現は不完全で不正確になる可能性がある、(2) クエリとドキュメント間の関連性スコアは 1 次元の埋め込みで計算されるため、
より詳細な関連性には鈍感である必要があります。
FLMR は、単純な調整ネットワークを通じて既存のテキストベースの検索機能と調整された視覚モデルを使用して、画像からテキストへの変換からの画像表現を補完する画像表現を取得することで、これらの制限を克服します。
FLMR はまた、多次元埋め込みを使用して画像と質問をエンコードし、クエリとドキュメントの間のより詳細な関連性をキャプチャします。
FLMR は、元の RA-VQA レトリバーの PRRecall@5 を約 8\% 大幅に改善します。
最後に、OK-VQA データセットで $\sim61\%$ VQA スコアを達成するために、2 つの最先端の大規模マルチモーダル/言語モデルを RA-VQA に装備しました。

要約(オリジナル)

Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to utilize knowledge from existing knowledge bases to answer visually-grounded questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong framework to tackle KB-VQA, first retrieves related documents with Dense Passage Retrieval (DPR) and then uses them to answer questions. This paper proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major limitations in RA-VQA’s retriever: (1) the image representations obtained via image-to-text transforms can be incomplete and inaccurate and (2) relevance scores between queries and documents are computed with one-dimensional embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes these limitations by obtaining image representations that complement those from the image-to-text transforms using a vision model aligned with an existing text-based retriever through a simple alignment network. FLMR also encodes images and questions using multi-dimensional embeddings to capture finer-grained relevance between queries and documents. FLMR significantly improves the original RA-VQA retriever’s PRRecall@5 by approximately 8\%. Finally, we equipped RA-VQA with two state-of-the-art large multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA dataset.

arxiv情報

著者 Weizhe Lin,Jinghong Chen,Jingbiao Mei,Alexandru Coca,Bill Byrne
発行日 2023-09-29 10:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク