要約
ドキュメント検索は、検索および検索の高等発電(RAG)アプリケーションの重要なタスクです。
大規模な言語モデル(LLMS)は、テキストベースのドキュメント取得の精度の向上に貢献しています。
ただし、複雑なレイアウトとテーブル、チャート、インフォグラフィックなどの視覚要素を備えたドキュメントは、テキスト形式で完全に表されていません。
最近、画像ベースのドキュメント検索パイプラインが一般的になりました。これは、視覚的な大規模な言語モデル(VLM)を使用して、クエリが与えられた関連ページ画像を取得します。
視覚ドキュメントの検索の現在の評価ベンチマークは、主に英語のみに焦点を当て、合成的に生成された質問に依存し、小さなコーパスサイズを提供するため、制限されています。
したがって、多言語の視覚文書検索評価ベンチマークであるMiracl-visionを紹介します。
Miracl-Visionは18の言語をカバーし、Miracl Datasetの拡張であり、テキストベースの多言語検索パイプラインを評価するための人気のあるベンチマークです。
Miraclは、高品質の質問を生成するために、人間集約型の注釈プロセスを使用して構築されました。
Miracl-Vision Corpusサイズを縮小して評価をよりコンピューティングにしながら、データセットを困難に保ち、コーパスから「簡単な」ネガを排除する方法を設計しました。
Miracl-visionと他のベンチマークを比較した広範な実験を、一般的なパブリックテキストと画像モデルを使用して実施しました。
マルチリングル機能に関する最先端のVLMベースの埋め込みモデルのギャップが観察され、テキストベースの検索モデルよりも最大59.7%低い検索精度があります。
英語であっても、視覚モデルの検索精度は、テキストベースのモデルと比較して12.1%低くなっています。
Miracl-visionは、視覚検索パイプラインの挑戦的で代表的な多言語評価ベンチマークであり、コミュニティがドキュメント取得のための堅牢なモデルを構築するのに役立ちます。
要約(オリジナル)
Document retrieval is an important task for search and Retrieval-Augmented Generation (RAG) applications. Large Language Models (LLMs) have contributed to improving the accuracy of text-based document retrieval. However, documents with complex layout and visual elements like tables, charts and infographics are not perfectly represented in textual format. Recently, image-based document retrieval pipelines have become popular, which use visual large language models (VLMs) to retrieve relevant page images given a query. Current evaluation benchmarks on visual document retrieval are limited, as they primarily focus only English language, rely on synthetically generated questions and offer a small corpus size. Therefore, we introduce MIRACL-VISION, a multilingual visual document retrieval evaluation benchmark. MIRACL-VISION covers 18 languages, and is an extension of the MIRACL dataset, a popular benchmark to evaluate text-based multilingual retrieval pipelines. MIRACL was built using a human-intensive annotation process to generate high-quality questions. In order to reduce MIRACL-VISION corpus size to make evaluation more compute friendly while keeping the datasets challenging, we have designed a method for eliminating the ‘easy’ negatives from the corpus. We conducted extensive experiments comparing MIRACL-VISION with other benchmarks, using popular public text and image models. We observe a gap in state-of-the-art VLM-based embedding models on multilingual capabilities, with up to 59.7% lower retrieval accuracy than a text-based retrieval models. Even for the English language, the visual models retrieval accuracy is 12.1% lower compared to text-based models. MIRACL-VISION is a challenging, representative, multilingual evaluation benchmark for visual retrieval pipelines and will help the community build robust models for document retrieval.
arxiv情報
著者 | Radek Osmulski,Gabriel de Souza P. Moreira,Ronay Ak,Mengyao Xu,Benedikt Schifferer,Even Oldridge |
発行日 | 2025-05-21 17:26:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google