DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis

要約

正確なドキュメントレイアウト分析は、高品質のPDFドキュメント変換の重要な要件です。
PubLayNetやDocBankなどの公開された大規模なグラウンドトゥルースデータセットが最近利用可能になったため、深層学習モデルはレイアウトの検出とセグメンテーションに非常に効果的であることが証明されています。
これらのデータセットはそのようなモデルをトレーニングするのに十分なサイズですが、PubMedやarXivなどの科学論文リポジトリからのみ供給されているため、レイアウトの変動性が大幅に不足しています。
その結果、これらのモデルがより困難で多様なレイアウトに適用されると、レイアウトセグメンテーションの精度が大幅に低下します。
このホワイトペーパーでは、COCO形式の新しい公開されているドキュメントレイアウト注釈データセットである\textit{DocLayNet}を紹介します。
レイアウトの多様性を表すために、さまざまなデータソースから手動で注釈が付けられた80863ページが含まれています。
PDFページごとに、レイアウトアノテーションは、11の異なるクラスの選択肢を備えたラベル付きバウンディングボックスを提供します。
DocLayNetは、アノテーター間の合意を決定するために、二重および三重の注釈付きページのサブセットも提供します。
複数の実験で、人気のあるオブジェクト検出モデルのセットのベースライン精度スコア(mAP)を提供します。
また、これらのモデルがアノテーター間の合意から約10 \%遅れていることも示しています。
さらに、DocLayNetが十分なサイズであるという証拠を提供します。
最後に、PubLayNet、DocBank、およびDocLayNetでトレーニングされたモデルを比較し、DocLayNetでトレーニングされたモデルのレイアウト予測がより堅牢であり、したがって、汎用ドキュメントレイアウト分析に適していることを示します。

要約(オリジナル)

Accurate document layout analysis is a key requirement for high-quality PDF document conversion. With the recent availability of public, large ground-truth datasets such as PubLayNet and DocBank, deep-learning models have proven to be very effective at layout detection and segmentation. While these datasets are of adequate size to train such models, they severely lack in layout variability since they are sourced from scientific article repositories such as PubMed and arXiv only. Consequently, the accuracy of the layout segmentation drops significantly when these models are applied on more challenging and diverse layouts. In this paper, we present \textit{DocLayNet}, a new, publicly available, document-layout annotation dataset in COCO format. It contains 80863 manually annotated pages from diverse data sources to represent a wide variability in layouts. For each PDF page, the layout annotations provide labelled bounding-boxes with a choice of 11 distinct classes. DocLayNet also provides a subset of double- and triple-annotated pages to determine the inter-annotator agreement. In multiple experiments, we provide baseline accuracy scores (in mAP) for a set of popular object detection models. We also demonstrate that these models fall approximately 10\% behind the inter-annotator agreement. Furthermore, we provide evidence that DocLayNet is of sufficient size. Lastly, we compare models trained on PubLayNet, DocBank and DocLayNet, showing that layout predictions of the DocLayNet-trained models are more robust and thus the preferred choice for general-purpose document-layout analysis.

arxiv情報

著者 Birgit Pfitzmann,Christoph Auer,Michele Dolfi,Ahmed S Nassar,Peter W J Staar
発行日 2022-06-02 14:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク