要約
ドキュメント解析は、契約、学術論文、請求書などの非構造化および半構造化されたドキュメントを構造化された機械可読データに変換するために不可欠です。
非構造化された入力から信頼できる構造化データを解析し、多数のアプリケーションに大きな利便性を提供します。
特に、大規模な言語モデルでの最近の成果により、ドキュメント解析は、知識ベースの構築とトレーニングデータ生成の両方に不可欠な役割を果たします。
この調査では、モジュラーパイプラインシステムから大規模なビジョン言語モデルによって駆動されるエンドツーエンドモデルまで、主要な方法論をカバーする文書解析の現在の状態の包括的なレビューを提示します。
レイアウト検出、コンテンツ抽出(テキスト、テーブル、数学式を含む)、マルチモーダルデータ統合などのコアコンポーネントを詳細に調べます。
さらに、このペーパーでは、複雑なレイアウトの処理、複数のモジュールの統合、高密度テキストの認識におけるモジュラードキュメント解析システムとビジョン言語モデルが直面する課題について説明します。
将来の研究の方向性の概要を説明し、より大きく、より多様なデータセットを開発することの重要性を強調しています。
要約(オリジナル)
Document parsing is essential for converting unstructured and semi-structured documents such as contracts, academic papers, and invoices into structured, machine-readable data. Document parsing reliable structured data from unstructured inputs, providing huge convenience for numerous applications. Especially with recent achievements in Large Language Models, document parsing plays an indispensable role in both knowledge base construction and training data generation. This survey presents a comprehensive review of the current state of document parsing, covering key methodologies, from modular pipeline systems to end-to-end models driven by large vision-language models. Core components such as layout detection, content extraction (including text, tables, and mathematical expressions), and multi-modal data integration are examined in detail. Additionally, this paper discusses the challenges faced by modular document parsing systems and vision-language models in handling complex layouts, integrating multiple modules, and recognizing high-density text. It outlines future research directions and emphasizes the importance of developing larger and more diverse datasets.
arxiv情報
著者 | Qintong Zhang,Bin Wang,Victor Shea-Jay Huang,Junyuan Zhang,Zhengren Wang,Hao Liang,Conghui He,Wentao Zhang |
発行日 | 2025-04-16 15:01:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google