Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling


この研究論文では、デジタル ウルドゥー語テキスト認識用に特別に設計された革新的な単語レベルの光学式文字認識 (OCR) モデルを紹介します。
トランスフォーマー ベースのアーキテクチャとアテンション メカニズムを利用して、このモデルは約 160,000 個のウルドゥー語テキスト画像の包括的なデータセットでトレーニングされ、文字誤り率 (CER) 0.178 を達成しました。これは、ウルドゥー語文字の認識精度が優れていることを示しています。
このモデルの強みは、置換自己回帰シーケンス (PARSeq) モデルを組み込んだ独自のアーキテクチャにあり、双方向のコンテキスト情報を活用して認識精度を向上させることで、コンテキストを意識した推論と反復改良が可能になります。
さらに、多様なウルドゥー語のテキスト スタイル、フォント、バリエーションを処理できる機能により、現実世界のシナリオでの適用性が高まります。


This research paper introduces an innovative word-level Optical Character Recognition (OCR) model specifically designed for digital Urdu text recognition. Utilizing transformer-based architectures and attention mechanisms, the model was trained on a comprehensive dataset of approximately 160,000 Urdu text images, achieving a character error rate (CER) of 0.178, which highlights its superior accuracy in recognizing Urdu characters. The model’s strength lies in its unique architecture, incorporating the permuted autoregressive sequence (PARSeq) model, which allows for context-aware inference and iterative refinement by leveraging bidirectional context information to enhance recognition accuracy. Furthermore, its capability to handle a diverse range of Urdu text styles, fonts, and variations enhances its applicability in real-world scenarios. Despite its promising results, the model has some limitations, such as difficulty with blurred images, non-horizontal orientations, and overlays of patterns, lines, or other text, which can occasionally lead to suboptimal performance. Additionally, trailing or following punctuation marks can introduce noise into the recognition process. Addressing these challenges will be a focus of future research, aiming to refine the model further, explore data augmentation techniques, optimize hyperparameters, and integrate contextual improvements for more accurate and efficient Urdu text recognition.


著者 Ahmed Mustafa,Ijlal Baig,Hasan Sajid
発行日 2024-08-27 14:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク