HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structures

要約

ドキュメント構造の再構築の問題は、デジタルまたはスキャンされたドキュメントを対応するセマンティック構造に変換することを指します。
ほとんどの既存の作業は、主に単一のドキュメント ページ内の各要素の境界を分割することに焦点を当てており、複数ページのドキュメントの意味構造の再構築を無視しています。
この論文では、NLP および CV 分野に適した新しいタスクとして、文書構造の階層的再構築を紹介します。
新しいタスクのシステム パフォーマンスをより適切に評価するために、HRDoc という名前の大規模なデータセットを構築しました。これは、約 200 万のセマンティック ユニットを持つ 2,500 のマルチページ ドキュメントで構成されています。
HRDoc のすべてのドキュメントには、ルールベースの抽出機能とヒューマン アノテーターから取得したカテゴリと関係を含む行レベルの注釈があります。
さらに、この問題に取り組むために、エンコーダーデコーダーベースの階層的文書構造解析システム (DSPS) を提案しました。
マルチモーダル双方向エンコーダーと、ソフトマスク操作を備えた構造認識 GRU デコーダーを採用することにより、DSPS モデルはベースライン手法を大幅に上回っています。
すべてのスクリプトとデータセットは、https://github.com/jfma-USTC/HRDoc で公開されます。

要約(オリジナル)

The problem of document structure reconstruction refers to converting digital or scanned documents into corresponding semantic structures. Most existing works mainly focus on splitting the boundary of each element in a single document page, neglecting the reconstruction of semantic structure in multi-page documents. This paper introduces hierarchical reconstruction of document structures as a novel task suitable for NLP and CV fields. To better evaluate the system performance on the new task, we built a large-scale dataset named HRDoc, which consists of 2,500 multi-page documents with nearly 2 million semantic units. Every document in HRDoc has line-level annotations including categories and relations obtained from rule-based extractors and human annotators. Moreover, we proposed an encoder-decoder-based hierarchical document structure parsing system (DSPS) to tackle this problem. By adopting a multi-modal bidirectional encoder and a structure-aware GRU decoder with soft-mask operation, the DSPS model surpass the baseline method by a large margin. All scripts and datasets will be made publicly available at https://github.com/jfma-USTC/HRDoc.

arxiv情報

著者 Jiefeng Ma,Jun Du,Pengfei Hu,Zhenrong Zhang,Jianshu Zhang,Huihui Zhu,Cong Liu
発行日 2023-03-24 07:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク