Graph-based Document Structure Analysis

要約

文書を読むとき、文書の空間レイアウトをちらっと見ることは、その文書を大まかに理解するための最初のステップである。しかし、従来の文書レイアウト解析(DLA)手法は、基本的なインスタンスの検出に焦点を当てた、文書の表面的な解析しか提供せず、インスタンス間の微妙な空間的・論理的関係を捉えられないことが多い。このような限界は、DLAベースのモデルが、人間の読解のような徐々に深い理解を達成することを妨げている。本研究では、グラフベースの文書構造解析(gDSA)タスクを提案する。このタスクでは、モデルが文書要素を検出するだけでなく、空間的・論理的関係をグラフ構造の形で生成し、文書を全体的かつ直感的に理解できるようにすることが要求される。この新しいタスクのために、8万点の文書画像と413万件の関係注釈を持つ関係グラフベースの文書構造解析データセット(GraphDoc)を構築し、読み順、階層構造解析、複雑な要素間関係推論などの複数のタスクをこなす学習モデルを可能にする。さらに、gDSAタスクに対応するために文書関係グラフ生成器(DRGG)を提案し、この新しいタスクとデータセットにおいて、強力なベンチマークベースラインに対してmAP$_g$@0.5で57.6%の性能を達成した。我々は、この文書構造のグラフィカルな表現が、文書構造の解析と理解における革新的な進歩を示すことを期待している。新しいデータセットとコードはhttps://yufanchen96.github.io/projects/GraphDoc。

要約(オリジナル)

When reading a document, glancing at the spatial layout of a document is an initial step to understand it roughly. Traditional document layout analysis (DLA) methods, however, offer only a superficial parsing of documents, focusing on basic instance detection and often failing to capture the nuanced spatial and logical relations between instances. These limitations hinder DLA-based models from achieving a gradually deeper comprehension akin to human reading. In this work, we propose a novel graph-based Document Structure Analysis (gDSA) task. This task requires that model not only detects document elements but also generates spatial and logical relations in form of a graph structure, allowing to understand documents in a holistic and intuitive manner. For this new task, we construct a relation graph-based document structure analysis dataset (GraphDoc) with 80K document images and 4.13M relation annotations, enabling training models to complete multiple tasks like reading order, hierarchical structures analysis, and complex inter-element relation inference. Furthermore, a document relation graph generator (DRGG) is proposed to address the gDSA task, which achieves performance with 57.6% at mAP$_g$@0.5 for a strong benchmark baseline on this novel task and dataset. We hope this graphical representation of document structure can mark an innovative advancement in document structure analysis and understanding. The new dataset and code will be made publicly available at https://yufanchen96.github.io/projects/GraphDoc.

arxiv情報

著者 Yufan Chen,Ruiping Liu,Junwei Zheng,Di Wen,Kunyu Peng,Jiaming Zhang,Rainer Stiefelhagen
発行日 2025-02-04 17:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク