Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

要約

文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を構造化された機械可読データに変換するために不可欠です。
ドキュメント解析は、非構造化入力から信頼性の高い構造化データを抽出し、多数のアプリケーションに大きな利便性を提供します。
特に大規模言語モデルにおける最近の成果により、文書解析は知識ベースの構築とトレーニング データ生成の両方において不可欠な役割を果たしています。
この調査では、モジュラー パイプライン システムから大規模なビジョン言語モデルによって駆動されるエンドツーエンド モデルに至るまで、主要な方法論をカバーする文書解析の現状を包括的にレビューします。
レイアウト検出、コンテンツ抽出 (テキスト、表、数式を含む)、マルチモーダル データ統合などのコア コンポーネントが詳細に検査されます。
さらに、この論文では、複雑なレイアウトの処理、複数のモジュールの統合、高密度テキストの認識において、モジュール式文書解析システムとビジョン言語モデルが直面する課題についても説明します。
それは、より大規模でより多様なデータセットを開発することの重要性を強調し、将来の研究の方向性を概説します。

要約(オリジナル)

Document parsing is essential for converting unstructured and semi-structured documents-such as contracts, academic papers, and invoices-into structured, machine-readable data. Document parsing extract reliable structured data from unstructured inputs, providing huge convenience for numerous applications. Especially with recent achievements in Large Language Models, document parsing plays an indispensable role in both knowledge base construction and training data generation. This survey presents a comprehensive review of the current state of document parsing, covering key methodologies, from modular pipeline systems to end-to-end models driven by large vision-language models. Core components such as layout detection, content extraction (including text, tables, and mathematical expressions), and multi-modal data integration are examined in detail. Additionally, this paper discusses the challenges faced by modular document parsing systems and vision-language models in handling complex layouts, integrating multiple modules, and recognizing high-density text. It emphasizes the importance of developing larger and more diverse datasets and outlines future research directions.

arxiv情報

著者 Qintong Zhang,Victor Shea-Jay Huang,Bin Wang,Junyuan Zhang,Zhengren Wang,Hao Liang,Shawn Wang,Matthieu Lin,Wentao Zhang,Conghui He
発行日 2024-10-28 16:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク