要約
過去 10 年間のインターネットの急速な発展に伴い、膨大なリソースから貴重な情報を効率的に抽出することがますます重要になっています。これは、特に研究調査や理解の観点から、包括的なデジタル エコシステムを確立するために非常に重要です。
これらのタスクの基礎は、堅牢なデータ インフラストラクチャを構築するために不可欠な、科学文書からのデータの正確な抽出と詳細なマイニングに焦点を当てています。
しかし、生データを解析したり、複雑な科学文書からデータを抽出したりすることは、継続的な課題です。
科学文書の現在のデータ抽出方法では、通常、ルールベース (RB) または機械学習 (ML) アプローチが使用されます。
ただし、ルールベースの方法を使用すると、複雑な組版を含む記事のコーディング コストが高くなる可能性があります。
逆に、機械学習手法のみに依存すると、科学文書内の複雑なコンテンツ タイプに対する注釈作業が必要になり、コストがかかる可能性があります。
さらに、科学文書内の階層レイアウトを徹底的に定義して調査した研究はほとんどありません。
文書の内部構造と要素の包括的な定義が欠如していると、テキスト分類やオブジェクト認識タスクの精度に間接的に影響します。
特定の出版物で使用される標準的なレイアウトと組版を分析するという観点から、我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案します。
まず、科学文書をベースドメイン、コンパートメント、テキストブロックという階層的な区分に定義します。
次に、テキスト ブロックの意味を徹底的に調査し、分類します。
最後に、テキスト ブロック分類の結果を利用して、ルールベースのコンパートメント セグメンテーションに基づいて科学文書内のオブジェクト認識を実装します。
要約(オリジナル)
With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation.
arxiv情報
著者 | Jinghong Li,Wen Gu,Koichi Ota,Shinobu Hasegawa |
発行日 | 2023-12-14 15:36:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google