Handwritten Stenography Recognition and the LION Dataset

要約

目的: この論文では、新しい LION データセットを使用して手書き速記認識のベースラインを確立し、速記理論の選択された側面を認識プロセスに組み込むことの影響を調査します。
私たちは、手書き速記認識における将来の研究を促進することを目的として、LION データセットを一般公開しています。
方法: 最先端のテキスト認識モデルをトレーニングしてベースラインを確立します。
速記ドメインの知識は、ターゲット シーケンスを文字体系の選択された側面に近似する表現に変換する 4 つの異なるエンコード方法を適用することによって統合されます。
合成データに基づいた事前トレーニング スキームを統合することで、結果がさらに向上します。
結果: ベースライン モデルは、平均テスト文字誤り率 (CER) 29.81%、単語誤り率 (WER) 55.14% を達成しました。
テストエラー率は、速記特有のターゲットシーケンスエンコーディングと事前トレーニングおよび微調整を組み合わせることで大幅に減少し、24.5% ~ 26% の範囲の CER と 44.8% ~ 48.2% の WER をもたらします。
結論: 得られた結果は、速記認識の困難な性質を示しています。
合成データの事前トレーニングと微調整と組み合わせて速記特有の知識を統合すると、大幅な改善がもたらされます。
この主題に関する私たちの先行研究と合わせて、これは現代の手書きテキスト認識を速記に適用した最初の研究です。
データセットとコードは Zenodo 経由で公開されています。

要約(オリジナル)

Purpose: In this paper, we establish a baseline for handwritten stenography recognition, using the novel LION dataset, and investigate the impact of including selected aspects of stenographic theory into the recognition process. We make the LION dataset publicly available with the aim of encouraging future research in handwritten stenography recognition. Methods: A state-of-the-art text recognition model is trained to establish a baseline. Stenographic domain knowledge is integrated by applying four different encoding methods that transform the target sequence into representations, which approximate selected aspects of the writing system. Results are further improved by integrating a pre-training scheme, based on synthetic data. Results: The baseline model achieves an average test character error rate (CER) of 29.81% and a word error rate (WER) of 55.14%. Test error rates are reduced significantly by combining stenography-specific target sequence encodings with pre-training and fine-tuning, yielding CERs in the range of 24.5% – 26% and WERs of 44.8% – 48.2%. Conclusion: The obtained results demonstrate the challenging nature of stenography recognition. Integrating stenography-specific knowledge, in conjunction with pre-training and fine-tuning on synthetic data, yields considerable improvements. Together with our precursor study on the subject, this is the first work to apply modern handwritten text recognition to stenography. The dataset and our code are publicly available via Zenodo.

arxiv情報

著者 Raphaela Heil,Malin Nauwerck
発行日 2023-08-15 14:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク