Scalable handwritten text recognition system for lexicographic sources of under-resourced languages and alphabets


私たちの研究は、280 万枚のインデックス カードを含む 17 世紀および 18 世紀のポーランド語辞書というタイトルの大きな歴史的辞書に対して、カードを読み取り、それらの見出し語を辞書エントリの検索可能なリストにリンクする実用的なソリューションを提供します。
(1) 最適化された検出モデルを含む、カスタマイズされた手書きテキスト認識 (HTR) ソリューションを適用します。
(2) 手書きの内容を解読するための認識モデル。空間変換ネットワーク (STN) とそれに続くコネクショニスト時間分類層 (CTC) を備えた畳み込みニューラル ネットワーク (RCNN) として設計され、500,000 の生成されたポーランド語の合成セットを使用してトレーニングされます。
(3) 制約付きワード ビーム検索 (WBC) を使用した後処理ステップ: 予測は、事前に知られている辞書エントリのリストと照合されました。
私たちのモデルは、単語レベルで 0.881 の精度を達成しました。これは、ベースの RCNN モデルよりも優れています。
この調査では、将来のベンチマークや転移学習 HTR アプリケーションに使用できる、手動で注釈を付けた 20,000 枚のインデックス カードのセットを作成しました。


The paper discusses an approach to decipher large collections of handwritten index cards of historical dictionaries. Our study provides a working solution that reads the cards, and links their lemmas to a searchable list of dictionary entries, for a large historical dictionary entitled the Dictionary of the 17th- and 18th-century Polish, which comprizes 2.8 million index cards. We apply a tailored handwritten text recognition (HTR) solution that involves (1) an optimized detection model; (2) a recognition model to decipher the handwritten content, designed as a spatial transformer network (STN) followed by convolutional neural network (RCNN) with a connectionist temporal classification layer (CTC), trained using a synthetic set of 500,000 generated Polish words of different length; (3) a post-processing step using constrained Word Beam Search (WBC): the predictions were matched against a list of dictionary entries known in advance. Our model achieved the accuracy of 0.881 on the word level, which outperforms the base RCNN model. Within this study we produced a set of 20,000 manually annotated index cards that can be used for future benchmarks and transfer learning HTR applications.


著者 Jan Idziak,Artjoms Šeļa,Michał Woźniak,Albert Leśniak,Joanna Byszuk,Maciej Eder
発行日 2023-03-28 19:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク