CTE: A Dataset for Contextualized Table Extraction

要約

ドキュメント内の関連情報は、多くの場合、表にまとめられており、読者が有用な事実を特定するのに役立ちます。
ほとんどのベンチマーク データセットは、ドキュメント レイアウト分析またはテーブルの理解をサポートしていますが、両方のタスクを統一された方法で適用するためのデータを提供していません。
ドキュメントのテキスト コンテキストを考慮してテーブルの構造を抽出および定義することを目的とした Contextualized Table Extraction (CTE) のタスクを定義します。
データセットは、35,000 を超える表を含む、75,000 の完全に注釈が付けられた科学論文のページで構成されています。
データは PubMed Central から収集され、PubTables-1M および PubLayNet データセットの注釈によって提供される情報をマージします。
データセットは CTE をサポートし、元のクラスに新しいクラスを追加できます。
生成された注釈を使用して、ドキュメント レイアウト分析、テーブル検出、構造認識、機能分析など、さまざまなタスクのエンド ツー エンド パイプラインを開発できます。
CTE と評価指標を正式に定義し、取り組むことができるサブタスクを示し、このデータ コレクションの利点、制限、および将来の作業について説明します。
注釈とコードは、https://github.com/AILab-UniFI/cte-dataset からアクセスできます。

要約(オリジナル)

Relevant information in documents is often summarized in tables, helping the reader to identify useful facts. Most benchmark datasets support either document layout analysis or table understanding, but lack in providing data to apply both tasks in a unified way. We define the task of Contextualized Table Extraction (CTE), which aims to extract and define the structure of tables considering the textual context of the document. The dataset comprises 75k fully annotated pages of scientific papers, including more than 35k tables. Data are gathered from PubMed Central, merging the information provided by annotations in the PubTables-1M and PubLayNet datasets. The dataset can support CTE and adds new classes to the original ones. The generated annotations can be used to develop end-to-end pipelines for various tasks, including document layout analysis, table detection, structure recognition, and functional analysis. We formally define CTE and evaluation metrics, showing which subtasks can be tackled, describing advantages, limitations, and future works of this collection of data. Annotations and code will be accessible a https://github.com/AILab-UniFI/cte-dataset.

arxiv情報

著者 Andrea Gemelli,Emanuele Vivoli,Simone Marinai
発行日 2023-02-13 18:22:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク