要約
検索補強型生成(RAG)は、外部知識を統合することによって大規模言語モデル(LLM)を強化し、幻覚を減らし、再トレーニングなしで最新の情報を取り込む。RAGの本質的な部分として、外部知識ベースは、光学式文字認識(OCR)を使用して非構造化PDF文書から構造化データを抽出することによって一般的に構築される。しかしながら、OCRの不完全な予測や構造化データ固有の不均一な表現を考慮すると、知識ベースは必然的に様々なOCRノイズを含む。本稿では、OCRがRAGシステムに与える連鎖的な影響を理解するための最初のベンチマークであるOHRBenchを紹介する。OHRBenchには、6つの実世界のRAGアプリケーション・ドメインから厳選された350の非構造化PDF文書と、文書中のマルチモーダル要素から派生したQ&Aが含まれており、RAGに使用されている既存のOCRソリューションに挑戦している。 RAGシステムに対するOCRの影響をより良く理解するために、我々は2つの主要なタイプのOCRノイズを特定する:セマンティックノイズとフォーマットノイズを特定し、それぞれのOCRノイズの程度が異なる構造化データのセットを生成するために摂動を適用する。OHRBenchを用いて、まず現在のOCRソリューションの包括的な評価を行い、RAGシステムのための高品質な知識ベース構築にはどのソリューションも適していないことを明らかにする。次に、これら2種類のノイズの影響を系統的に評価し、RAGシステムの脆弱性を実証する。さらに、RAGシステムにおいてOCRを用いずに視覚言語モデル(VLM)を採用する可能性について議論する。コード: https://github.com/opendatalab/OHR-Bench
要約(オリジナル)
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by integrating external knowledge to reduce hallucinations and incorporate up-to-date information without retraining. As an essential part of RAG, external knowledge bases are commonly built by extracting structured data from unstructured PDF documents using Optical Character Recognition (OCR). However, given the imperfect prediction of OCR and the inherent non-uniform representation of structured data, knowledge bases inevitably contain various OCR noises. In this paper, we introduce OHRBench, the first benchmark for understanding the cascading impact of OCR on RAG systems. OHRBench includes 350 carefully selected unstructured PDF documents from six real-world RAG application domains, along with Q&As derived from multimodal elements in documents, challenging existing OCR solutions used for RAG To better understand OCR’s impact on RAG systems, we identify two primary types of OCR noise: Semantic Noise and Formatting Noise and apply perturbation to generate a set of structured data with varying degrees of each OCR noise. Using OHRBench, we first conduct a comprehensive evaluation of current OCR solutions and reveal that none is competent for constructing high-quality knowledge bases for RAG systems. We then systematically evaluate the impact of these two noise types and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the potential of employing Vision-Language Models (VLMs) without OCR in RAG systems. Code: https://github.com/opendatalab/OHR-Bench
arxiv情報
著者 | Junyuan Zhang,Qintong Zhang,Bin Wang,Linke Ouyang,Zichen Wen,Ying Li,Ka-Ho Chow,Conghui He,Wentao Zhang |
発行日 | 2024-12-03 17:23:47+00:00 |
arxivサイト | arxiv_id(pdf) |