PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis

要約

タイトル:PARAGRAPH2GRAPH:レイアウト段落解析のためのGNNベースのフレームワーク
要約:文書のレイアウト解析は、さまざまなドメイン、言語、ビジネスシナリオで幅広い要件を持っています。しかし、現在の最先端のアルゴリズムのほとんどは言語依存であり、トランスフォーマーエンコーダーまたはBERTのような言語固有のテキストエンコーダーに依存したアーキテクチャを使用して特徴抽出を行います。これらの方法は、入力シーケンスの長さの制約により、非常に長い文書を処理する能力に制限があり、言語固有のトークナイザーに密接に関連しています。さらに、クロス言語テキストエンコーダーのトレーニングは、プライバシーを考慮したラベル付きの多言語文書データセットがないため、課題となる場合があります。さらに、一部のレイアウトタスクには、重なり合わないように異なるレイアウトコンポーネントをきれいに分離する必要があるため、画像セグメンテーションベースのアルゴリズムでは実現が困難です。本論文では、競争力のある結果を達成しながら、厳密な分離を必要とするビジネスシナリオに適応可能な、言語非依存のグラフニューラルネットワーク(GNN)ベースのParagraph2Graphモデルを紹介します。わずか19.95百万パラメータしか使用しない当社のモデルは、特に多言語のシナリオにおいて、産業応用に適しています。

要点:

– ドキュメントレイアウト解析は、言語、ドメイン、ビジネスシナリオによって要件が異なる
– 現在の最先端のアルゴリズムは、言語依存であるため、トランスフォーマーエンコーダーやBERTなどの言語固有のテキストエンコーダーに依存している
– 非常に長い文書を処理するには、入力シーケンスの長さによる制約があるため、これらの方法には制限がある
– クロス言語テキストエンコーダーをトレーニングすることは課題であり、ラベル付きの多言語文書データセットが必要である
– 一部のレイアウトタスクには、異なるレイアウトコンポーネントをきれいに分離する必要があるため、画像セグメンテーションベースのアルゴリズムは困難である
– Paragraph2Graphは、言語非依存のGNNベースのモデルであり、厳密な分離を必要とするビジネスシナリオに適応可能である
– 競争力のある結果を達成しながら、わずか19.95百万パラメータしか使用しないため、産業応用に適している
– Paragraph2Graphは多言語のシナリオにおいて特に有用である

要約(オリジナル)

Document layout analysis has a wide range of requirements across various domains, languages, and business scenarios. However, most current state-of-the-art algorithms are language-dependent, with architectures that rely on transformer encoders or language-specific text encoders, such as BERT, for feature extraction. These approaches are limited in their ability to handle very long documents due to input sequence length constraints and are closely tied to language-specific tokenizers. Additionally, training a cross-language text encoder can be challenging due to the lack of labeled multilingual document datasets that consider privacy. Furthermore, some layout tasks require a clean separation between different layout components without overlap, which can be difficult for image segmentation-based algorithms to achieve. In this paper, we present Paragraph2Graph, a language-independent graph neural network (GNN)-based model that achieves competitive results on common document layout datasets while being adaptable to business scenarios with strict separation. With only 19.95 million parameters, our model is suitable for industrial applications, particularly in multi-language scenarios.

arxiv情報

著者 Shu Wei,Nuo Xu
発行日 2023-04-24 03:54:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク