要約
まれなアルファベットの原稿など、リソースの少ないシナリオでの手書きテキスト認識は、難しい問題です。
主な問題は、注釈付きデータが非常に少なく、言語情報(辞書や言語モデルなど)が限られていることです。
したがって、私たちは、各アルファベット記号のわずかな画像のみを必要とする、人的労力の注釈プロセスを大幅に削減する、数ショットの学習ベースの手書き認識アプローチを提案します。
この方法は、テキストライン画像内の特定のアルファベットのすべての記号を検出し、取得した類似度スコアを転写された記号の最終シーケンスにデコードすることで構成されます。
私たちのモデルは、ターゲットドメインとは異なりますが、最初に任意のアルファベットから生成された合成線画像で事前トレーニングされます。
次に、2番目のトレーニングステップを適用して、ソースデータとターゲットデータの間のギャップを減らします。
この再トレーニングでは、数千の手書き記号とその境界ボックスの注釈が必要になるため、注釈なしのデータに疑似ラベルを自動的に割り当てる教師なしプログレッシブ学習アプローチを通じて、このような人間の努力を回避することを提案します。
さまざまな原稿データセットの評価は、私たちのモデルが人的労力を大幅に削減して競争力のある結果につながる可能性があることを示しています。
コードは次のリポジトリで公開されます:\ url {https://github.com/dali92002/HTRbyMatching}
要約(オリジナル)
Handwritten text recognition in low resource scenarios, such as manuscripts with rare alphabets, is a challenging problem. The main difficulty comes from the very few annotated data and the limited linguistic information (e.g. dictionaries and language models). Thus, we propose a few-shot learning-based handwriting recognition approach that significantly reduces the human labor annotation process, requiring only few images of each alphabet symbol. The method consists in detecting all the symbols of a given alphabet in a textline image and decoding the obtained similarity scores to the final sequence of transcribed symbols. Our model is first pretrained on synthetic line images generated from any alphabet, even though different from the target domain. A second training step is then applied to diminish the gap between the source and target data. Since this retraining would require annotation of thousands of handwritten symbols together with their bounding boxes, we propose to avoid such human effort through an unsupervised progressive learning approach that automatically assigns pseudo-labels to the non-annotated data. The evaluation on different manuscript datasets show that our model can lead to competitive results with a significant reduction in human effort. The code will be publicly available in this repository: \url{https://github.com/dali92002/HTRbyMatching}
arxiv情報
著者 | Mohamed Ali Souibgui,Alicia Fornés,Yousri Kessentini,Beáta Megyesi |
発行日 | 2022-06-13 11:22:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google