Enhancing Visually-Rich Document Understanding via Layout Structure Modeling

要約

近年、マルチモーダルな事前トレーニング済みトランスフォーマーの使用により、視覚的に豊かな文書の理解が大幅に進歩しました。
しかし、既存のモデルは主にテキストやビジョンなどの機能に焦点を当てており、テキストノード間のレイアウト関係の重要性を無視していました。
この論文では、レイアウト構造グラフのモデリングを活用してドキュメント レイアウトの知識をモデルに注入する、新しいドキュメント理解モデル GraphLayoutLM を提案します。
GraphLayoutLM は、グラフ並べ替えアルゴリズムを利用して、グラフ構造に基づいてテキスト シーケンスを調整します。
さらに、私たちのモデルは、レイアウトを認識するマルチヘッドセルフアテンションレイヤーを使用して、ドキュメントレイアウトの知識を学習します。
提案されたモデルにより、テキスト要素の空間配置を理解できるようになり、文書の理解が向上します。
FUNSD、XFUND、CORD などのさまざまなベンチマークでモデルを評価し、これらのデータセットの中で最先端の結果を達成しています。
私たちの実験結果は、私たちが提案した方法が既存のアプローチに比べて大幅な改善をもたらし、文書理解モデルにレイアウト情報を組み込むことの重要性を示していることを示しています。
また、モデルの各コンポーネントの寄与を調査するためにアブレーション研究も実施します。
結果は、グラフ並べ替えアルゴリズムとレイアウトを認識したマルチヘッド セルフ アテンション レイヤーの両方が、最高のパフォーマンスを達成する上で重要な役割を果たしていることを示しています。

要約(オリジナル)

In recent years, the use of multi-modal pre-trained Transformers has led to significant advancements in visually-rich document understanding. However, existing models have mainly focused on features such as text and vision while neglecting the importance of layout relationship between text nodes. In this paper, we propose GraphLayoutLM, a novel document understanding model that leverages the modeling of layout structure graph to inject document layout knowledge into the model. GraphLayoutLM utilizes a graph reordering algorithm to adjust the text sequence based on the graph structure. Additionally, our model uses a layout-aware multi-head self-attention layer to learn document layout knowledge. The proposed model enables the understanding of the spatial arrangement of text elements, improving document comprehension. We evaluate our model on various benchmarks, including FUNSD, XFUND and CORD, and achieve state-of-the-art results among these datasets. Our experimental results demonstrate that our proposed method provides a significant improvement over existing approaches and showcases the importance of incorporating layout information into document understanding models. We also conduct an ablation study to investigate the contribution of each component of our model. The results show that both the graph reordering algorithm and the layout-aware multi-head self-attention layer play a crucial role in achieving the best performance.

arxiv情報

著者 Qiwei Li,Zuchao Li,Xiantao Cai,Bo Du,Hai Zhao
発行日 2023-08-15 13:53:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク