PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers

要約

大規模マルチモーダル モデル (LMM) は、自然言語と視覚的理解に優れていますが、質問に対する回答を作成するために使用するドキュメント コレクションから関連情報を取得する、知識ベースの視覚的質問応答 (KB-VQA) などの厳密なタスクが課題となります。
KB-VQA 用の広範なトレーニングおよび評価フレームワーク M2KR を紹介します。
M2KR には、汎用のマルチモーダル レトリバーをトレーニングおよび評価するためのベンチマーク タスクの単一スイートに組み込んだ、視覚および言語タスクのコレクションが含まれています。
私たちは M2KR を使用して、KB-VQA に対する最近開発されたファイングレイン レイト インタラクション マルチモーダル レトリバー (FLMR) アプローチの事前トレーニング済みバージョンである PreFLMR を開発し、さまざまな範囲にわたる新しい最先端の結果を報告します。
タスクの。
また、汎用マルチモーダル レトリバーの将来の開発に役立つことを目的とした PreFLMR のスケーリング動作に関する調査も紹介します。

要約(オリジナル)

Large Multimodal Models (LMMs) excel in natural language and visual understanding but are challenged by exacting tasks such as Knowledge-based Visual Question Answering (KB-VQA) which involve the retrieval of relevant information from document collections to use in shaping answers to questions. We present an extensive training and evaluation framework, M2KR, for KB-VQA. M2KR contains a collection of vision and language tasks which we have incorporated into a single suite of benchmark tasks for training and evaluating general-purpose multi-modal retrievers. We use M2KR to develop PreFLMR, a pre-trained version of the recently developed Fine-grained Late-interaction Multi-modal Retriever (FLMR) approach to KB-VQA, and we report new state-of-the-art results across a range of tasks. We also present investigations into the scaling behaviors of PreFLMR intended to be useful in future developments in general-purpose multi-modal retrievers.

arxiv情報

著者 Weizhe Lin,Jingbiao Mei,Jinghong Chen,Bill Byrne
発行日 2024-02-13 09:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク