要約
バイエルン科学人文科学アカデミーは、中世ラテン語辞書のデジタル化を目指しています。
この辞書には、リソースの少ない言語である中世ラテン語の補題を参照するレコード カードが含まれています。
デジタル化プロセスの重要なステップは、これらの記録カードにある手書きの補題の手書きテキスト認識 (HTR) です。
私たちの研究では、補題の検索、抽出、転記のために、中世のラテン語辞書に合わせたエンドツーエンドのパイプラインを導入しました。
HTR タスクの初期データ セットを準備するために、2 つの最先端 (SOTA) 画像セグメンテーション モデルを採用しています。
さらに、さまざまなトランスベースのモデルを実験し、ビジョン エンコーダと GPT-2 デコーダのさまざまな組み合わせの機能を調査する一連の実験を実施します。
さらに、大規模なデータ拡張も適用し、競争力の高いモデルを実現しています。
最もパフォーマンスの高いセットアップでは、文字誤り率 (CER) 0.015 を達成しました。これは商用の Google Cloud Vision モデルよりもさらに優れており、より安定したパフォーマンスを示しています。
要約(オリジナル)
The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval Latin Dictionary. This dictionary entails record cards referring to lemmas in medieval Latin, a low-resource language. A crucial step of the digitization process is the Handwritten Text Recognition (HTR) of the handwritten lemmas found on these record cards. In our work, we introduce an end-to-end pipeline, tailored to the medieval Latin dictionary, for locating, extracting, and transcribing the lemmas. We employ two state-of-the-art (SOTA) image segmentation models to prepare the initial data set for the HTR task. Furthermore, we experiment with different transformer-based models and conduct a set of experiments to explore the capabilities of different combinations of vision encoders with a GPT-2 decoder. Additionally, we also apply extensive data augmentation resulting in a highly competitive model. The best-performing setup achieved a Character Error Rate (CER) of 0.015, which is even superior to the commercial Google Cloud Vision model, and shows more stable performance.
arxiv情報
著者 | Philipp Koch,Gilary Vera Nuñez,Esteban Garces Arias,Christian Heumann,Matthias Schöffel,Alexander Häberlin,Matthias Aßenmacher |
発行日 | 2023-08-18 08:02:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google