手書きテキスト認識 (HTR) は、書き手、内容、および時間の手書きスタイルが不均一であるため、印刷されたテキストよりも興味深く、やりがいがあります。
HTR は、(i) 複数の文字を組み合わせて結合を形成し、それぞれの言語の文字数を増やしていること、および (ii) 各インド語のスクリプトで 100 近くの固有の基本的な Unicode 文字を使用しているため、インド語ではより困難になります。
最近、このような問題を処理するために、エンコーダー/デコーダー フレームワークに基づく多くの認識方法が提案されています。
ほとんどのエンコーダー/デコーダー メソッドは、明示的なグローバル セマンティック情報を持たないローカルの視覚的特徴に基づいていると主張します。
インド語の手書きテキストを認識するためのグローバル セマンティック情報を抽出するために、エンコーダー デコーダー フレームワークでセマンティック モジュールを使用します。
広範な実験により、提案されたフレームワークが 10 のインド言語の手書きテキストで最先端の結果を達成することが実証されています。
Handwritten Text Recognition (HTR) is more interesting and challenging than printed text due to uneven variations in the handwriting style of the writers, content, and time. HTR becomes more challenging for the Indic languages because of (i) multiple characters combined to form conjuncts which increase the number of characters of respective languages, and (ii) near to 100 unique basic Unicode characters in each Indic script. Recently, many recognition methods based on the encoder-decoder framework have been proposed to handle such problems. They still face many challenges, such as image blur and incomplete characters due to varying writing styles and ink density. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we enhance the performance of Indic handwritten text recognizers using global semantic information. We use a semantic module in an encoder-decoder framework for extracting global semantic information to recognize the Indic handwritten texts. The semantic information is used in both the encoder for supervision and the decoder for initialization. The semantic information is predicted from the word embedding of a pre-trained language model. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art results on handwritten texts of ten Indic languages.
著者 | Ajoy Mondal,C. V. Jawahar |
発行日 | 2022-12-15 12:53:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google