要約
光学式文字認識 (OCR) は、後続のアプリケーションに影響を与える精度の課題に引き続き直面しています。
これらのエラーに対処するために、OCR 後のエラー検出を強化するための OCR 信頼度スコアの有用性を調査します。
私たちの研究には、さまざまな OCR システムにわたる信頼スコアとエラー率の相関関係の分析が含まれます。
私たちは、OCR 信頼スコアをトークン埋め込みに組み込み、ノイズ調整のためのオプションの事前トレーニング フェーズを提供する BERT ベースのモデルである ConfBERT を開発します。
私たちの実験結果は、OCR 信頼度スコアを統合することでエラー検出機能を強化できることを示しています。
この研究は、検出精度の向上における OCR 信頼度スコアの重要性を強調し、商用 OCR テクノロジとオープンソース OCR テクノロジ間のパフォーマンスの大幅な差を明らかにしました。
要約(オリジナル)
Optical Character Recognition (OCR) continues to face accuracy challenges that impact subsequent applications. To address these errors, we explore the utility of OCR confidence scores for enhancing post-OCR error detection. Our study involves analyzing the correlation between confidence scores and error rates across different OCR systems. We develop ConfBERT, a BERT-based model that incorporates OCR confidence scores into token embeddings and offers an optional pre-training phase for noise adjustment. Our experimental results demonstrate that integrating OCR confidence scores can enhance error detection capabilities. This work underscores the importance of OCR confidence scores in improving detection accuracy and reveals substantial disparities in performance between commercial and open-source OCR technologies.
arxiv情報
| 著者 | Arthur Hemmer,Mickaël Coustaty,Nicola Bartolo,Jean-Marc Ogier |
| 発行日 | 2024-09-06 08:35:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google