DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents

要約

タイトル:DocParser:視覚的にリッチなドキュメントからのOCRフリー情報抽出のエンドツーエンド手法

要約:

– 視覚的にリッチなドキュメントからの情報抽出は、文書管理型アプリケーションにとって重要であり、広く商業的価値があるため、近年注目を集めています。
– これまでにこのトピックに関する研究の大部分は、2つのステップのパイプラインに従って、まず市販のOCRエンジンを使用してテキストを読み取り、それから取得したテキストから興味のあるフィールドを抽出しています。
– これらの方法の主な欠点は、外部OCRシステムに依存するため、パフォーマンスと計算速度の両方に悪影響を与えることです。
– 最近OCRフリーの手法が提案され、これらの問題に対応するために、本論文では有望な結果に基づいて、OCRフリーのエンドツーエンド情報抽出モデル「DocParser」を提案しています。
– DocParserは、従来のエンドツーエンド手法とは異なり、識別的な文字特徴をより良く抽出する能力があります。
– DocParserは、様々なデータセットで最先端の結果を達成しつつ、以前の作品よりも高速です。

要約(オリジナル)

Information Extraction from visually rich documents is a challenging task that has gained a lot of attention in recent years due to its importance in several document-control based applications and its widespread commercial value. The majority of the research work conducted on this topic to date follow a two-step pipeline. First, they read the text using an off-the-shelf Optical Character Recognition (OCR) engine, then, they extract the fields of interest from the obtained text. The main drawback of these approaches is their dependence on an external OCR system, which can negatively impact both performance and computational speed. Recent OCR-free methods were proposed to address the previous issues. Inspired by their promising results, we propose in this paper an OCR-free end-to-end information extraction model named DocParser. It differs from prior end-to-end approaches by its ability to better extract discriminative character features. DocParser achieves state-of-the-art results on various datasets, while still being faster than previous works.

arxiv情報

著者 Mohamed Dhouib,Ghassen Bettaieb,Aymen Shabou
発行日 2023-04-24 22:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク