要約
文書構造分析 (別名文書レイアウト分析) は、情報検索、文書要約、知識抽出などに応用され、文書の物理的レイアウトと論理構造を理解するために重要です。このホワイトペーパーでは、階層的文書構造分析 (HDSA) に焦点を当てます。
LaTeX、Microsoft Word、HTML などの階層スキーマを使用するオーサリング ソフトウェアを使用して作成された構造化ドキュメント内の階層関係を調査します。
階層的な文書構造を包括的に分析するために、ページオブジェクトの検出(Detect)、識別されたオブジェクトの読み取り順序予測(Order)、および意図した階層構造の構築(Construct)を含む複数のサブタスクに同時に対処するツリー構築ベースのアプローチを提案します。
このフレームワークに基づいた効果的なエンドツーエンドのソリューションを提示し、そのパフォーマンスを実証します。
私たちのアプローチを評価するために、上記のサブタスクを同時に評価する Comp-HRDoc と呼ばれる包括的なベンチマークを開発しました。
当社のエンドツーエンド システムは、2 つの大規模文書レイアウト分析データセット (PubLayNet および DocLayNet)、高品質の階層文書構造再構築データセット (HRDoc)、および Comp-HRDoc ベンチマークで最先端のパフォーマンスを実現します。
。
Comp-HRDoc ベンチマークは、この分野のさらなる研究を促進するためにリリースされる予定です。
要約(オリジナル)
Document structure analysis (aka document layout analysis) is crucial for understanding the physical layout and logical structure of documents, with applications in information retrieval, document summarization, knowledge extraction, etc. In this paper, we concentrate on Hierarchical Document Structure Analysis (HDSA) to explore hierarchical relationships within structured documents created using authoring software employing hierarchical schemas, such as LaTeX, Microsoft Word, and HTML. To comprehensively analyze hierarchical document structures, we propose a tree construction based approach that addresses multiple subtasks concurrently, including page object detection (Detect), reading order prediction of identified objects (Order), and the construction of intended hierarchical structure (Construct). We present an effective end-to-end solution based on this framework to demonstrate its performance. To assess our approach, we develop a comprehensive benchmark called Comp-HRDoc, which evaluates the above subtasks simultaneously. Our end-to-end system achieves state-of-the-art performance on two large-scale document layout analysis datasets (PubLayNet and DocLayNet), a high-quality hierarchical document structure reconstruction dataset (HRDoc), and our Comp-HRDoc benchmark. The Comp-HRDoc benchmark will be released to facilitate further research in this field.
arxiv情報
著者 | Jiawei Wang,Kai Hu,Zhuoyao Zhong,Lei Sun,Qiang Huo |
発行日 | 2024-01-22 12:00:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google