Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling

要約

この研究論文では、デジタル ウルドゥー語テキスト用に特別に開発された新しい単語レベルの光学式文字認識 (OCR) モデルを紹介します。
このモデルは、トランスフォーマー ベースのアーキテクチャとアテンション メカニズムを利用して、多様なテキスト スタイル、フォント、バリエーションの処理など、ウルドゥー語文字を認識する際の特有の課題に対処します。
約 160,000 個のウルドゥー語テキスト画像の包括的なデータセットでトレーニングされたモデルには、置換自己回帰シーケンス (PARSeq) アーキテクチャが組み込まれています。
この設計により、双方向のコンテキスト情報を活用することでコンテキストを意識した推論と反復的改良が可能になり、ウルドゥー語文字を正確に認識する能力が大幅に向上します。
このモデルは 0.178 の文字誤り率 (CER) を達成しており、実際のアプリケーションにおけるその有効性と精度が際立っています。
ただし、このモデルには、ぼやけた画像、非水平方向、末尾の句読点の存在などの問題があり、認識プロセスにノイズが発生する可能性があります。
これらの課題に対処することが、今後の取り組みの重要な焦点となるでしょう。
今後の研究では、高度なデータ拡張技術、ハイパーパラメータの最適化、コンテキスト認識言語モデルの統合を通じてモデルをさらに改良し、最終的にウルドゥー語テキスト認識におけるモデルのパフォーマンスと堅牢性を強化することを目指します。

要約(オリジナル)

This research paper presents a novel word-level Optical Character Recognition (OCR) model developed specifically for digital Urdu text. The model utilizes transformer-based architectures and attention mechanisms to address the unique challenges of recognizing Urdu script, which includes handling a diverse range of text styles, fonts, and variations. Trained on a comprehensive dataset of approximately 160,000 Urdu text images, the model incorporates a permuted autoregressive sequence (PARSeq) architecture. This design enables context-aware inference and iterative refinement by leveraging bidirectional context information, significantly enhancing its ability to accurately recognize Urdu characters. The model achieves a character error rate (CER) of 0.178, highlighting its effectiveness and precision in real-world applications. However, the model has some limitations, such as difficulties with blurred images, non-horizontal orientations, and the presence of trailing punctuation marks, which can introduce noise into the recognition process. Addressing these challenges will be a key focus of future work. Future research will aim to further refine the model through advanced data augmentation techniques, optimization of hyperparameters, and the integration of context-aware language models, ultimately enhancing the model’s performance and robustness in Urdu text recognition.

arxiv情報

著者 Ahmed Mustafa,Muhammad Tahir Rafique,Muhammad Ijlal Baig,Hasan Sajid,Muhammad Jawad Khan,Karam Dad Kallu
発行日 2024-08-28 09:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク