要約
Multimodal Document検索は、広範なドキュメントからの図、表、チャート、レイアウト情報など、さまざまな形式のマルチモーダルコンテンツを特定して取得することを目的としています。
人気が高まっているにもかかわらず、このようなタスクでのシステムのパフォーマンスを効果的に評価するための包括的で堅牢なベンチマークが顕著に欠けています。
このギャップに対処するために、この作業は、Mmdocirという名前の新しいベンチマークを紹介します。これには、ページレベルとレイアウトレベルの検索という2つの異なるタスクが含まれます。
前者は、長いドキュメント内で最も関連性の高いページを識別するパフォーマンスを評価しますが、後者は特定のレイアウトを検出する能力を評価し、ページ全体の分析よりも微細な尺度を提供します。
レイアウトとは、テキストの段落、方程式、図、表、またはチャートなど、さまざまな要素を指します。
MMDOCIRベンチマークは、専門家から注釈が付けられた1,685の質問とブートストラップラベルの173,843の質問を特徴とする豊富なデータセットで構成されており、トレーニングと評価の両方にマルチモーダルドキュメント取得の貴重なリソースとなっています。
厳密な実験を通じて、(i)視覚レトリバーがテキストの対応物を大幅に上回ることを実証します。(ii)MMDOCIRトレーニングセットは、マルチモーダルドキュメント取得のパフォーマンスを効果的に向上させ、(iii)テキストレトリバーをレバレッジ化するテキストレトリバーは、OCRテキストでのレリーバーを大幅に上回ります。
データセットはhttps://mmdocrag.github.io/mmdocir/で入手できます。
要約(オリジナル)
Multimodal document retrieval aims to identify and retrieve various forms of multimodal content, such as figures, tables, charts, and layout information from extensive documents. Despite its increasing popularity, there is a notable lack of a comprehensive and robust benchmark to effectively evaluate the performance of systems in such tasks. To address this gap, this work introduces a new benchmark, named MMDocIR, that encompasses two distinct tasks: page-level and layout-level retrieval. The former evaluates the performance of identifying the most relevant pages within a long document, while the later assesses the ability of detecting specific layouts, providing a more fine-grained measure than whole-page analysis. A layout refers to a variety of elements, including textual paragraphs, equations, figures, tables, or charts. The MMDocIR benchmark comprises a rich dataset featuring 1,685 questions annotated by experts and 173,843 questions with bootstrapped labels, making it a valuable resource in multimodal document retrieval for both training and evaluation. Through rigorous experiments, we demonstrate that (i) visual retrievers significantly outperform their text counterparts, (ii) MMDocIR training set effectively enhances the performance of multimodal document retrieval and (iii) text retrievers leveraging VLM-text significantly outperforms retrievers relying on OCR-text. Our dataset is available at https://mmdocrag.github.io/MMDocIR/.
arxiv情報
著者 | Kuicai Dong,Yujing Chang,Xin Deik Goh,Dexun Li,Ruiming Tang,Yong Liu |
発行日 | 2025-05-20 14:49:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google