A Transformer-based Approach for Arabic Offline Handwritten Text Recognition

要約

手書き認識は、パターン認識と機械学習の分野における挑戦的かつ重要な問題であり、幅広い分野に応用されています。
このペーパーでは、オフラインのアラビア語手書きテキストの認識という特定の問題に焦点を当てます。
既存のアプローチは通常、画像特徴抽出には畳み込みニューラル ネットワークを、時間モデリングにはリカレント ニューラル ネットワークを組み合わせて利用し、テキスト生成にはコネクショニスト時間分類を使用します。
ただし、これらの方法はリカレント ニューラル ネットワークの逐次的な性質により並列化ができないという問題があります。
さらに、これらのモデルは言語規則を考慮できないため、精度を高めるために後処理段階で外部言語モデルを使用する必要があります。
これらの問題を克服するために、トランスデューサー トランスデューサーと標準シーケンス間トランスフォーマーという 2 つの代替アーキテクチャを導入し、精度と速度の観点からそれらのパフォーマンスを比較します。
私たちのアプローチは言語の依存関係をモデル化し、アテンション メカニズムのみに依存するため、より並列化可能で複雑さが軽減されます。
画像理解と言語モデリングの両方に事前トレーニング済みの Transformer を採用しています。
アラビア語の KHATT データセットに対する私たちの評価は、私たちが提案した方法が、オフラインのアラビア語の手書きテキストを認識するための現在の最先端のアプローチよりも優れていることを示しています。

要約(オリジナル)

Handwriting recognition is a challenging and critical problem in the fields of pattern recognition and machine learning, with applications spanning a wide range of domains. In this paper, we focus on the specific issue of recognizing offline Arabic handwritten text. Existing approaches typically utilize a combination of convolutional neural networks for image feature extraction and recurrent neural networks for temporal modeling, with connectionist temporal classification used for text generation. However, these methods suffer from a lack of parallelization due to the sequential nature of recurrent neural networks. Furthermore, these models cannot account for linguistic rules, necessitating the use of an external language model in the post-processing stage to boost accuracy. To overcome these issues, we introduce two alternative architectures, namely the Transformer Transducer and the standard sequence-to-sequence Transformer, and compare their performance in terms of accuracy and speed. Our approach can model language dependencies and relies only on the attention mechanism, thereby making it more parallelizable and less complex. We employ pre-trained Transformers for both image understanding and language modeling. Our evaluation on the Arabic KHATT dataset demonstrates that our proposed method outperforms the current state-of-the-art approaches for recognizing offline Arabic handwritten text.

arxiv情報

著者 Saleh Momeni,Bagher BabaAli
発行日 2023-07-27 17:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク