要約
OCR 後の処理は、過去数年間で大幅に改善されました。
ただし、これらは、請求書、給与明細、診断書などの数値的な文書とは対照的に、自然なアルファベットの単語で構成されるテキストに対して主に有益です。これらのデータセットの OCR 後処理の難易度を評価するために、次の方法を提案します。
テキストのノイズ除去の複雑さを推定し、それをさまざまな性質のいくつかのデータセットで評価し、数値的な性質のテキストには重大な欠点があることを示します。
私たちは、現代のノイズ除去アプローチのエラー率に関して推定された複雑さのランキングを評価し、推定量の妥当性を示します。
要約(オリジナル)
Post-OCR processing has significantly improved over the past few years. However, these have been primarily beneficial for texts consisting of natural, alphabetical words, as opposed to documents of numerical nature such as invoices, payslips, medical certificates, etc. To evaluate the OCR post-processing difficulty of these datasets, we propose a method to estimate the denoising complexity of a text and evaluate it on several datasets of varying nature, and show that texts of numerical nature have a significant disadvantage. We evaluate the estimated complexity ranking with respect to the error rates of modern-day denoising approaches to show the validity of our estimator.
arxiv情報
著者 | Arthur Hemmer,Jérôme Brachat,Mickaël Coustaty,Jean-Marc Ogier |
発行日 | 2023-07-03 13:49:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google