Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling

要約

この研究論文では、デジタル ウルドゥー語テキスト認識用に特別に設計された革新的な単語レベルの光学式文字認識 (OCR) モデルを紹介します。
トランスフォーマー ベースのアーキテクチャとアテンション メカニズムを利用して、このモデルは約 160,000 個のウルドゥー語テキスト画像の包括的なデータセットでトレーニングされ、文字誤り率 (CER) 0.178 を達成しました。これは、ウルドゥー語文字の認識精度が優れていることを示しています。
このモデルの強みは、置換自己回帰シーケンス (PARSeq) モデルを組み込んだ独自のアーキテクチャにあり、双方向のコンテキスト情報を活用して認識精度を向上させることで、コンテキストを意識した推論と反復改良が可能になります。
さらに、多様なウルドゥー語のテキスト スタイル、フォント、バリエーションを処理できる機能により、現実世界のシナリオでの適用性が高まります。
有望な結果にもかかわらず、このモデルには、ぼやけた画像、非水平方向、パターン、線、その他のテキストのオーバーレイの処理が難しいなど、いくつかの制限があり、場合によっては次善のパフォーマンスにつながる可能性があります。
さらに、句読点の後ろまたは後ろに句読点があると、認識プロセスにノイズが混入する可能性があります。
これらの課題に対処することが将来の研究の焦点となり、モデルをさらに改良し、データ拡張技術を探索し、ハイパーパラメータを最適化し、より正確かつ効率的なウルドゥー語テキスト認識のためのコンテキストの改善を統合することを目指しています。

要約(オリジナル)

This research paper introduces an innovative word-level Optical Character Recognition (OCR) model specifically designed for digital Urdu text recognition. Utilizing transformer-based architectures and attention mechanisms, the model was trained on a comprehensive dataset of approximately 160,000 Urdu text images, achieving a character error rate (CER) of 0.178, which highlights its superior accuracy in recognizing Urdu characters. The model’s strength lies in its unique architecture, incorporating the permuted autoregressive sequence (PARSeq) model, which allows for context-aware inference and iterative refinement by leveraging bidirectional context information to enhance recognition accuracy. Furthermore, its capability to handle a diverse range of Urdu text styles, fonts, and variations enhances its applicability in real-world scenarios. Despite its promising results, the model has some limitations, such as difficulty with blurred images, non-horizontal orientations, and overlays of patterns, lines, or other text, which can occasionally lead to suboptimal performance. Additionally, trailing or following punctuation marks can introduce noise into the recognition process. Addressing these challenges will be a focus of future research, aiming to refine the model further, explore data augmentation techniques, optimize hyperparameters, and integrate contextual improvements for more accurate and efficient Urdu text recognition.

arxiv情報

著者 Ahmed Mustafa,Ijlal Baig,Hasan Sajid
発行日 2024-08-27 14:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク