DSG: An End-to-End Document Structure Generator

要約

産業、研究、公共部門の情報は、レンダリングされたドキュメント (PDF ファイル、スキャンなど) として広く保存されています。
したがって、下流のタスクを可能にするには、レンダリングされたドキュメントを構造化された階層形式にマッピングするシステムが必要です。
ただし、このタスク用の既存のシステムはヒューリスティックによって制限されており、エンドツーエンドでトレーニング可能ではありません。
この研究では、完全にエンドツーエンドでトレーニング可能な文書解析用の新しいシステムである文書構造ジェネレーター (DSG) を紹介します。
DSG は、(i) ドキュメント内のエンティティ (図、テキスト ブロック、ヘッダーなど) と、(ii) エンティティ間のシーケンスと入れ子構造をキャプチャする関係を解析するためのディープ ニューラル ネットワークを組み合わせます。
ヒューリスティックに依存する既存のシステムとは異なり、当社の DSG はエンドツーエンドでトレーニングされるため、実世界のアプリケーションに対して効果的かつ柔軟になります。
さらに、評価用の複雑な文書構造を持つ現実世界の雑誌で構成される E-Periodica と呼ばれる新しい大規模データセットにも貢献します。
私たちの結果は、当社の DSG が市販の OCR ツールを上回っており、さらに最先端のパフォーマンスを達成していることを示しています。
私たちの知る限り、当社の DSG システムは、階層型ドキュメント解析のための最初のエンドツーエンドのトレーニング可能なシステムです。

要約(オリジナル)

Information in industry, research, and the public sector is widely stored as rendered documents (e.g., PDF files, scans). Hence, to enable downstream tasks, systems are needed that map rendered documents onto a structured hierarchical format. However, existing systems for this task are limited by heuristics and are not end-to-end trainable. In this work, we introduce the Document Structure Generator (DSG), a novel system for document parsing that is fully end-to-end trainable. DSG combines a deep neural network for parsing (i) entities in documents (e.g., figures, text blocks, headers, etc.) and (ii) relations that capture the sequence and nested structure between entities. Unlike existing systems that rely on heuristics, our DSG is trained end-to-end, making it effective and flexible for real-world applications. We further contribute a new, large-scale dataset called E-Periodica comprising real-world magazines with complex document structures for evaluation. Our results demonstrate that our DSG outperforms commercial OCR tools and, on top of that, achieves state-of-the-art performance. To the best of our knowledge, our DSG system is the first end-to-end trainable system for hierarchical document parsing.

arxiv情報

著者 Johannes Rausch,Gentiana Rashiti,Maxim Gusev,Ce Zhang,Stefan Feuerriegel
発行日 2023-10-13 14:03:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク