Multimodal Tree Decoder for Table of Contents Extraction in Document Images

要約

目次(ToC)抽出は、文書中の異なるレベルの見出しを抽出し、内容の概要をより良く理解することを目的としており、文書理解や情報検索に広く利用することが可能である。既存の作品は、見出しを検出し、見出し間の階層的関係を解決するために、手作業で作られた特徴や事前に定義されたルールベースの関数を使用することが多い。ベンチマークも深層学習に基づく研究もまだ限定的である。したがって、本論文では、まず、科学論文の650文書から内容ラベル付きの画像サンプルを含む標準データセットであるHierDocを紹介する。そして、HierDocのベンチマークとしてToCのためのマルチモーダルツリーデコーダ(MTD)を用いて、新しいエンドツーエンドモデルを提案する。MTDモデルは主にエンコーダ、分類器、デコーダの3つの部分から構成される。エンコーダは、文書の各エンティティに対して、視覚、テキスト、レイアウト情報などのマルチモダリティ特徴を融合させる。次に、分類器では、見出しとなるエンティティを認識し、選択する。次に、見出しエンティティ間の階層的関係を解析するために、木構造デコーダを設計する。性能評価には,TEDS (tree-edit-distance similarity) とF1-Measureの両方を用いる.最終的に、我々のMTDアプローチは、HierDocのテストセットにおいて、平均TEDS87.2%、平均F1-Measure88.1%を達成することができた。コードとデータセットはhttps://github.com/Pengfei-Hu/MTD で公開する予定です。

要約(オリジナル)

Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.

arxiv情報

著者 Pengfei Hu,Zhenrong Zhang,Jianshu Zhang,Jun Du,Jiajia Wu
発行日 2022-12-06 11:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク