M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

要約

ドキュメントからの質問に答えるドキュメント ビジュアル質問応答 (DocVQA) パイプラインは、幅広い用途に使用できます。
既存の方法は、マルチモーダル言語モデル (MLM) を使用して単一ページのドキュメントを処理することに焦点を当てているか、光学式文字認識 (OCR) などのテキスト抽出ツールを使用するテキストベースの検索拡張生成 (RAG) に依存しています。
ただし、これらの方法を現実のシナリオに適用するには困難があります。(a) 質問では、さまざまなページまたはドキュメントにまたがる情報が必要になることが多く、MLM は多くの長いドキュメントを処理できません。
(b) 文書には図などの視覚要素に重要な情報が含まれていることがよくありますが、テキスト抽出ツールはそれらを無視します。
さまざまなドキュメント コンテキスト (クローズド ドメインとオープン ドメイン)、質問ホップ (シングルホップとマルチホップ)、および証拠モダリティ (テキスト、チャート、図など) に柔軟に対応する新しいマルチモーダル RAG フレームワークである M3DocRAG を紹介します。
。)。
M3DocRAG は、マルチモーダル検索機能と MLM を使用して関連ドキュメントを検索し、質問に回答します。そのため、視覚情報を維持しながら、単一または多数のドキュメントを効率的に処理できます。
以前の DocVQA データセットは特定のドキュメントのコンテキストで質問を行うため、40,000 ページ以上の 3,000 以上の PDF ドキュメントにわたるオープン ドメイン DocVQA を評価するための新しいベンチマークである M3DocVQA も紹介します。
3 つのベンチマーク (M3DocVQA/MMLongBench-Doc/MP-DocVQA) では、ColPali および Qwen2-VL 7B を使用した M3DocRAG が、MP-DocVQA の最先端のパフォーマンスを含む多くの強力なベースラインよりも優れたパフォーマンスを達成することが実証結果からわかります。
当社は、さまざまなインデックス作成、MLM、検索モデルの包括的な分析を提供します。
最後に、関連情報が複数のページにまたがって存在する場合や、回答の証拠が画像内にのみ存在する場合など、M3DocRAG がさまざまなシナリオを正常に処理できることを定性的に示します。

要約(オリジナル)

Document visual question answering (DocVQA) pipelines that answer questions from documents have broad applications. Existing methods focus on handling single-page documents with multi-modal language models (MLMs), or rely on text-based retrieval-augmented generation (RAG) that uses text extraction tools such as optical character recognition (OCR). However, there are difficulties in applying these methods in real-world scenarios: (a) questions often require information across different pages or documents, where MLMs cannot handle many long documents; (b) documents often have important information in visual elements such as figures, but text extraction tools ignore them. We introduce M3DocRAG, a novel multi-modal RAG framework that flexibly accommodates various document contexts (closed-domain and open-domain), question hops (single-hop and multi-hop), and evidence modalities (text, chart, figure, etc.). M3DocRAG finds relevant documents and answers questions using a multi-modal retriever and an MLM, so that it can efficiently handle single or many documents while preserving visual information. Since previous DocVQA datasets ask questions in the context of a specific document, we also present M3DocVQA, a new benchmark for evaluating open-domain DocVQA over 3,000+ PDF documents with 40,000+ pages. In three benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), empirical results show that M3DocRAG with ColPali and Qwen2-VL 7B achieves superior performance than many strong baselines, including state-of-the-art performance in MP-DocVQA. We provide comprehensive analyses of different indexing, MLMs, and retrieval models. Lastly, we qualitatively show that M3DocRAG can successfully handle various scenarios, such as when relevant information exists across multiple pages and when answer evidence only exists in images.

arxiv情報

著者 Jaemin Cho,Debanjan Mahata,Ozan Irsoy,Yujie He,Mohit Bansal
発行日 2024-11-07 18:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク