Impact of Ground Truth Quality on Handwriting Recognition

要約

手書き認識は、古い文書の内容にアクセスするための重要なテクノロジーであり、文化遺産の保存に役立ちます。
ディープラーニングは、このタスクの解決において素晴らしいパフォーマンスを示します。
ただし、その可能性を最大限に発揮するには、大量のラベル付きデータが必要ですが、古代の言語や文字ではそれを入手するのが困難です。
最近導入された Bullinger データベースの場合のように、多くの場合、グラウンド トゥルースの量と品質の間でトレードオフを行う必要があります。
これには、既存のページレベルの転写をテキスト行画像と自動的に位置合わせすることによって取得された、主に前近代的なドイツ語とラテン語のテキストのラベル付きテキスト行画像が 10 万を超える膨大な量が含まれています。
ただし、位置合わせプロセスでは、単語のハイフネーションが間違っているなど、系統的なエラーが発生します。
この論文では、このようなエラーがトレーニングと評価に及ぼす影響を調査し、典型的な位置合わせエラーを検出して修正する手段を提案します。

要約(オリジナル)

Handwriting recognition is a key technology for accessing the content of old manuscripts, helping to preserve cultural heritage. Deep learning shows an impressive performance in solving this task. However, to achieve its full potential, it requires a large amount of labeled data, which is difficult to obtain for ancient languages and scripts. Often, a trade-off has to be made between ground truth quantity and quality, as is the case for the recently introduced Bullinger database. It contains an impressive amount of over a hundred thousand labeled text line images of mostly premodern German and Latin texts that were obtained by automatically aligning existing page-level transcriptions with text line images. However, the alignment process introduces systematic errors, such as wrongly hyphenated words. In this paper, we investigate the impact of such errors on training and evaluation and suggest means to detect and correct typical alignment errors.

arxiv情報

著者 Michael Jungo,Lars Vögtlin,Atefeh Fakhari,Nathan Wegmann,Rolf Ingold,Andreas Fischer,Anna Scius-Bertrand
発行日 2023-12-14 15:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク