Improving Information Extraction on Business Documents with Specific Pre-Training Tasks

要約

トランスフォーマーベースの言語モデルは、自然言語処理関連のタスクで広く使用されています。
事前トレーニングのおかげで、彼らはビジネス文書での情報抽出にうまく適応できました。
ただし、ビジネス文書の文献で提案されているほとんどの事前トレーニング タスクは一般的すぎるため、より複雑な構造を学習するには不十分です。
このペーパーでは、ビジネス文書のコレクションで事前トレーニングされた言語モデルである LayoutLM を使用し、関連情報を抽出する能力をさらに向上させる 2 つの新しい事前トレーニング タスクを紹介します。
1 つ目はドキュメントの複雑なレイアウトをより深く理解することを目的としており、2 つ目は数値とその桁数に焦点を当てています。
これらのタスクにより、モデルはスキャンされたドキュメントのより適切にコンテキスト化された表現を学習するようになります。
さらに、情報抽出で BIESO タグをデコードするための新しい後処理アルゴリズムを導入し、複雑なエンティティの処理を向上させます。
私たちの方法では、経費領収書、請求書、注文書で構成されるパブリック データセット (F1 スコア 93.88 から 95.50 へ) とプライベート データセット (F1 スコア 84.35 から 84.84 へ) の両方での抽出パフォーマンスが大幅に向上しました。

要約(オリジナル)

Transformer-based Language Models are widely used in Natural Language Processing related tasks. Thanks to their pre-training, they have been successfully adapted to Information Extraction in business documents. However, most pre-training tasks proposed in the literature for business documents are too generic and not sufficient to learn more complex structures. In this paper, we use LayoutLM, a language model pre-trained on a collection of business documents, and introduce two new pre-training tasks that further improve its capacity to extract relevant information. The first is aimed at better understanding the complex layout of documents, and the second focuses on numeric values and their order of magnitude. These tasks force the model to learn better-contextualized representations of the scanned documents. We further introduce a new post-processing algorithm to decode BIESO tags in Information Extraction that performs better with complex entities. Our method significantly improves extraction performance on both public (from 93.88 to 95.50 F1 score) and private (from 84.35 to 84.84 F1 score) datasets composed of expense receipts, invoices, and purchase orders.

arxiv情報

著者 Thibault Douzon,Stefan Duffner,Christophe Garcia,Jérémy Espinas
発行日 2023-09-11 13:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.CL, I.2.7 パーマリンク