Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution

要約

OCRと情報抽出を同時に行うことを目的とした視覚情報抽出(VIE)は、領収書や商品、交通標識の理解など、様々なアプリケーションで不可欠な役割を果たすため、注目が高まっている。しかし、既存のVIEのベンチマークデータセットは、レイアウト構造、背景の乱れ、エンティティカテゴリの多様性が十分でない文書画像が中心であるため、実世界のアプリケーションの課題を十分に明らかにすることができません。本論文では、レイアウト、背景、フォントの多様性だけでなく、より多くの種類のエンティティを含む、VIE用のカメラ画像からなる大規模データセットを提案する。さらに、OCRと情報抽出の段階をエンドツーエンドで学習させる、エンドツーエンドVIEのための新しいフレームワークを提案する。情報抽出モジュールの入力としてOCR機能を直接採用する従来のエンドツーエンドのアプローチとは異なり、OCRと情報抽出のタスクの違いによって生じる意味的ギャップを狭めるために、対照学習を使用することを提案する。提案データセットにおいて、既存のVIEのためのエンドツーエンド手法を評価したところ、レイアウトやエンティティの分散が大きいため、SROIE(広く使われている英語データセット)から提案データセットにかけて、これらの手法の性能が顕著に低下することが確認された。これらの結果は、我々のデータセットが、先進的なVIEアルゴリズムを推進する上でより実用的であることを示しています。さらに、実験では、提案VIE手法が提案データセットとSROIEデータセットで一貫して明らかな性能向上を達成することが実証された。

要約(オリジナル)

Visual information extraction (VIE), which aims to simultaneously perform OCR and information extraction in a unified framework, has drawn increasing attention due to its essential role in various applications like understanding receipts, goods, and traffic signs. However, as existing benchmark datasets for VIE mainly consist of document images without the adequate diversity of layout structures, background disturbs, and entity categories, they cannot fully reveal the challenges of real-world applications. In this paper, we propose a large-scale dataset consisting of camera images for VIE, which contains not only the larger variance of layout, backgrounds, and fonts but also much more types of entities. Besides, we propose a novel framework for end-to-end VIE that combines the stages of OCR and information extraction in an end-to-end learning fashion. Different from the previous end-to-end approaches that directly adopt OCR features as the input of an information extraction module, we propose to use contrastive learning to narrow the semantic gap caused by the difference between the tasks of OCR and information extraction. We evaluate the existing end-to-end methods for VIE on the proposed dataset and observe that the performance of these methods has a distinguishable drop from SROIE (a widely used English dataset) to our proposed dataset due to the larger variance of layout and entities. These results demonstrate our dataset is more practical for promoting advanced VIE algorithms. In addition, experiments demonstrate that the proposed VIE method consistently achieves the obvious performance gains on the proposed and SROIE datasets.

arxiv情報

著者 Jianfeng Kuang,Wei Hua,Dingkang Liang,Mingkun Yang,Deqiang Jiang,Bo Ren,Yu Zhou,Xiang Bai
発行日 2023-05-12 14:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク