Enhancing Indic Handwritten Text Recognition Using Global Semantic Information

要約

手書きテキスト認識 (HTR) は、書き手、内容、および時間の手書きスタイルが不均一であるため、印刷されたテキストよりも興味深く、やりがいがあります。
HTR は、(i) 複数の文字を組み合わせて結合を形成し、それぞれの言語の文字数を増やしていること、および (ii) 各インド語のスクリプトで 100 近くの固有の基本的な Unicode 文字を使用しているため、インド語ではより困難になります。
最近、このような問題を処理するために、エンコーダー/デコーダー フレームワークに基づく多くの認識方法が提案されています。
書体やインクの濃度の違いによる画像のにじみや文字の不完全さなど、まだ多くの課題に直面しています。
ほとんどのエンコーダー/デコーダー メソッドは、明示的なグローバル セマンティック情報を持たないローカルの視覚的特徴に基づいていると主張します。
この作業では、グローバルなセマンティック情報を使用して、インド語の手書きテキスト認識エンジンのパフォーマンスを向上させます。
インド語の手書きテキストを認識するためのグローバル セマンティック情報を抽出するために、エンコーダー デコーダー フレームワークでセマンティック モジュールを使用します。
セマンティック情報は、監視用のエンコーダと初期化用のデコーダの両方で使用されます。
セマンティック情報は、事前にトレーニングされた言語モデルの単語埋め込みから予測されます。
広範な実験により、提案されたフレームワークが 10 のインド言語の手書きテキストで最先端の結果を達成することが実証されています。

要約(オリジナル)

Handwritten Text Recognition (HTR) is more interesting and challenging than printed text due to uneven variations in the handwriting style of the writers, content, and time. HTR becomes more challenging for the Indic languages because of (i) multiple characters combined to form conjuncts which increase the number of characters of respective languages, and (ii) near to 100 unique basic Unicode characters in each Indic script. Recently, many recognition methods based on the encoder-decoder framework have been proposed to handle such problems. They still face many challenges, such as image blur and incomplete characters due to varying writing styles and ink density. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we enhance the performance of Indic handwritten text recognizers using global semantic information. We use a semantic module in an encoder-decoder framework for extracting global semantic information to recognize the Indic handwritten texts. The semantic information is used in both the encoder for supervision and the decoder for initialization. The semantic information is predicted from the word embedding of a pre-trained language model. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art results on handwritten texts of ten Indic languages.

arxiv情報

著者 Ajoy Mondal,C. V. Jawahar
発行日 2022-12-15 12:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク