Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines

要約

クルド人の図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された歴史的出版物が数多く所蔵されています。
これらの出版物の処理を支援し、クルド語リソースに貢献するために優れた光学式文字認識 (OCR) を備えていることは、クルド語がリソースの少ない言語であると考えられているため、非常に重要です。
現在の OCR システムは、歴史的文書が破損している、非常に壊れやすい、多くの痕跡が残っている、標準以外のフォントで書かれていることが多いなど、多くの問題を抱えているため、歴史的文書からテキストを抽出することができません。
現在文書を処理するには手動での入力が必要であり、非常に時間がかかるため、これはこれらの文書を処理する上で大きな障害となります。
この研究では、さまざまな言語のテキストを抽出するために使用されている Google のオープンソース OCR フレームワークである Tesseract バージョン 5.0 を採用しました。
現在、公開されているデータセットはありません。Zheen 文書研究センターから歴史的文書を収集して独自のデータセットを開発しました。これらの文書は 1950 年より前に印刷され、それぞれの文字を転写した 1,233 枚の線画のデータセットが完成しました。
次に、アラビア語モデルをベースモデルとして使用し、データセットを使用してモデルをトレーニングしました。
さまざまな方法を使用してモデルを評価しました。Tesseracts の組み込み評価器 lstmeval は、0.755% の文字誤り率 (CER) を示しました。
さらに、Ocreval は平均文字精度 84.02% を実証しました。
最後に、エンドユーザーに使いやすいインターフェイスを提供する Web アプリケーションを開発しました。これにより、エンドユーザーは、ページの画像を入力してテキストを抽出することでモデルを操作できるようになります。
現在、歴史的なクルド語文書に利用できる公開データセットがないため、妥当な精度で OCR システムを開発するには、広範なデータセットを用意することが重要です。
これは私たちの仕事に重大な課題をもたらしました。
さらに、文字と単語の間のスペースが揃っていないことが、私たちの作業における別の課題であることが判明しました。

要約(オリジナル)

Kurdish libraries have many historical publications that were printed back in the early days when printing devices were brought to Kurdistan. Having a good Optical Character Recognition (OCR) to help process these publications and contribute to the Kurdish languages resources which is crucial as Kurdish is considered a low-resource language. Current OCR systems are unable to extract text from historical documents as they have many issues, including being damaged, very fragile, having many marks left on them, and often written in non-standard fonts and more. This is a massive obstacle in processing these documents as currently processing them requires manual typing which is very time-consuming. In this study, we adopt an open-source OCR framework by Google, Tesseract version 5.0, that has been used to extract text for various languages. Currently, there is no public dataset, and we developed our own by collecting historical documents from Zheen Center for Documentation and Research, which were printed before 1950 and resulted in a dataset of 1233 images of lines with transcription of each. Then we used the Arabic model as our base model and trained the model using the dataset. We used different methods to evaluate our model, Tesseracts built-in evaluator lstmeval indicated a Character Error Rate (CER) of 0.755%. Additionally, Ocreval demonstrated an average character accuracy of 84.02%. Finally, we developed a web application to provide an easy- to-use interface for end-users, allowing them to interact with the model by inputting an image of a page and extracting the text. Having an extensive dataset is crucial to develop OCR systems with reasonable accuracy, as currently, no public datasets are available for historical Kurdish documents; this posed a significant challenge in our work. Additionally, the unaligned spaces between characters and words proved another challenge with our work.

arxiv情報

著者 Blnd Yaseen,Hossein Hassani
発行日 2024-04-09 08:08:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク