Data Generation for Post-OCR correction of Cyrillic handwriting

要約

この論文では、手書きキリル文字に対する光学式文字認識補正 (POC) 後の新しいアプローチを紹介し、現在の研究方法における大きなギャップに対処します。
このギャップは、コーパス サイズの点で要求が厳しい、言語ベースの POC モデルをさらにトレーニングするための OCR エラーを提供する大きなテキスト コーパスが不足しているためです。
私たちの研究は主に、ベジェ曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てています。
このようなエンジンは、任意の量の非常に現実的な手書きテキストを生成します。これを利用して、インターネットから取得したロシア語のテキスト コーパスを変換して、実質的なデータセットを作成します。
このデータセットに手書きテキスト認識 (HTR) モデルを適用して OCR エラーを特定し、POC モデル トレーニングの基礎を形成します。
補正モデルは、seq2seq 補正タスクを備えた事前トレーニング済みの T5 アーキテクチャを利用して、90 シンボルの入力コンテキストでトレーニングされます。
HWR200 および School_notebooks_RU データセットは HTR ドメインに重大な課題をもたらすため、これらに対するアプローチを評価します。
さらに、POC を使用して教師の間違いを強調し、生徒のパフォーマンスを評価することもできます。
これは、修正前と修正後の文章を比較し、テキストの違いを表示するだけで実行できます。
私たちの主な貢献は、キリル文字の生成とその後の特殊な POC モデルを使用したエラー修正のためのベジエ曲線の革新的な使用にあります。
手書きのキリル文字テキストの実際の公開コーパスを使用して、OCR 後補正ありとなしの両方の単語精度率 (WAR) と文字精度率 (CAR) の結果を提示することで、アプローチを検証します。
これらの結果は、当社の方法論と組み合わせることで再現可能になるように設計されており、OCR および手書きテキスト分析の分野におけるさらなる進歩への道を開きます。
論文の寄稿は https://github.com/dbrainio/CyrillicHandwritingPOC でご覧いただけます。

要約(オリジナル)

This paper introduces a novel approach to post-Optical Character Recognition Correction (POC) for handwritten Cyrillic text, addressing a significant gap in current research methodologies. This gap is due to the lack of large text corporas that provide OCR errors for further training of language-based POC models, which are demanding in terms of corpora size. Our study primarily focuses on the development and application of a synthetic handwriting generation engine based on B\’ezier curves. Such an engine generates highly realistic handwritten text in any amounts, which we utilize to create a substantial dataset by transforming Russian text corpora sourced from the internet. We apply a Handwritten Text Recognition (HTR) model to this dataset to identify OCR errors, forming the basis for our POC model training. The correction model is trained on a 90-symbol input context, utilizing a pre-trained T5 architecture with a seq2seq correction task. We evaluate our approach on HWR200 and School_notebooks_RU datasets as they provide significant challenges in the HTR domain. Furthermore, POC can be used to highlight errors for teachers, evaluating student performance. This can be done simply by comparing sentences before and after correction, displaying differences in text. Our primary contribution lies in the innovative use of B\’ezier curves for Cyrillic text generation and subsequent error correction using a specialized POC model. We validate our approach by presenting Word Accuracy Rate (WAR) and Character Accuracy Rate (CAR) results, both with and without post-OCR correction, using real open corporas of handwritten Cyrillic text. These results, coupled with our methodology, are designed to be reproducible, paving the way for further advancements in the field of OCR and handwritten text analysis. Paper contributions can be found in https://github.com/dbrainio/CyrillicHandwritingPOC

arxiv情報

著者 Evgenii Davydkin,Aleksandr Markelov,Egor Iuldashev,Anton Dudkin,Ivan Krivorotov
発行日 2023-11-27 15:01:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク