Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images

要約

スキャンしたレシートのデジタル化は、レシート画像からテキストを抽出し、構造化されたドキュメントに保存することを目的としています。
これは通常、テキスト ローカリゼーションと光学式文字認識 (OCR) の 2 つのサブタスクに分割されます。
既存の OCR モデルのほとんどは、切り取られたテキスト インスタンス画像のみに焦点を当てており、テキスト領域検出モデルによって提供される境界ボックス情報が必要です。
事前にテキスト インスタンス画像を識別する追加の検出器を導入すると複雑さが増しますが、インスタンス レベルの OCR モデルは、さまざまなレイアウトで配置された複数のテキスト行を含むレシート画像など、ドキュメント レベルの OCR 用に画像全体を処理する場合の精度が非常に低くなります。
この目的を達成するために、レシート画像内のすべての文字を順序付けされたシーケンスにエンドツーエンドで転写するための、ローカリゼーションフリーのドキュメントレベルの OCR モデルを提案します。
具体的には、ランダムにトリミングされた画像チャンクを使用して事前トレーニング済みのインスタンス レベル モデル TrOCR を微調整し、画像チャンク サイズを徐々に大きくして、インスタンス画像からフルページ画像まで認識能力を一般化します。
SROIE レシート OCR データセットの実験では、戦略で微調整されたモデルは、それぞれ 64.4 F1 スコアと 22.8% の文字誤り率 (CER) を達成しました。これは、48.5 F1 スコアと 50.6% CER というベースライン結果を上回りました。
最適なモデルでは、画像全体を同じサイズの 15 のチャンクに分割し、出力の前処理または後処理を最小限に抑えながら、F1 スコア 87.8 と CER 4.98% を実現します。
さらに、生成された文書レベルのシーケンス内の文字は読み順に配置されており、実際のアプリケーションに実用的です。

要約(オリジナル)

Digitization of scanned receipts aims to extract text from receipt images and save it into structured documents. This is usually split into two sub-tasks: text localization and optical character recognition (OCR). Most existing OCR models only focus on the cropped text instance images, which require the bounding box information provided by a text region detection model. Introducing an additional detector to identify the text instance images in advance adds complexity, however instance-level OCR models have very low accuracy when processing the whole image for the document-level OCR, such as receipt images containing multiple text lines arranged in various layouts. To this end, we propose a localization-free document-level OCR model for transcribing all the characters in a receipt image into an ordered sequence end-to-end. Specifically, we finetune the pretrained instance-level model TrOCR with randomly cropped image chunks, and gradually increase the image chunk size to generalize the recognition ability from instance images to full-page images. In our experiments on the SROIE receipt OCR dataset, the model finetuned with our strategy achieved 64.4 F1-score and a 22.8% character error rate (CER), respectively, which outperforms the baseline results with 48.5 F1-score and 50.6% CER. The best model, which splits the full image into 15 equally sized chunks, gives 87.8 F1-score and 4.98% CER with minimal additional pre or post-processing of the output. Moreover, the characters in the generated document-level sequences are arranged in the reading order, which is practical for real-world applications.

arxiv情報

著者 Hongkuan Zhang,Edward Whittaker,Ikuo Kitagishi
発行日 2023-10-16 16:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク