DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents

要約

タイトル:DocParser:視覚豊かなドキュメントからのOCRフリー情報抽出のためのエンドツーエンド手法
要約:
– 視覚豊かなドキュメントからの情報抽出は、ドキュメントコントロールベースのアプリケーションや広く普及した商業的価値において、重要性が高まっている。しかし、従来のアプローチには、外部のOCRシステムに依存していることが主な欠点である。
– 近年、「OCRフリー」の手法が提案され、従来の問題に対処しようとしている。本論文では、これらの手法の有望な結果に着目し、OCRフリーのエンドツーエンド情報抽出モデルであるDocParserを提案する。
– DocParserは、識別的な文字の特徴をよりよく抽出する能力により、従来のエンドツーエンド手法と異なっている。この手法は、様々なデータセットで最新の成果を達成しながら、従来の手法よりも速い処理ができる。

要約(オリジナル)

Information Extraction from visually rich documents is a challenging task that has gained a lot of attention in recent years due to its importance in several document-control based applications and its widespread commercial value. The majority of the research work conducted on this topic to date follow a two-step pipeline. First, they read the text using an off-the-shelf Optical Character Recognition (OCR) engine, then, they extract the fields of interest from the obtained text. The main drawback of these approaches is their dependence on an external OCR system, which can negatively impact both performance and computational speed. Recent OCR-free methods were proposed to address the previous issues. Inspired by their promising results, we propose in this paper an OCR-free end-to-end information extraction model named DocParser. It differs from prior end-to-end approaches by its ability to better extract discriminative character features. DocParser achieves state-of-the-art results on various datasets, while still being faster than previous works.

arxiv情報

著者 Mohamed Dhouib,Ghassen Bettaieb,Aymen Shabou
発行日 2023-05-01 21:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク