Historical German Text Normalization Using Type- and Token-Based Language Modeling

要約

スペルの歴史的なバリエーションは、歴史的なデジタル化されたテキストの全文検索や自然言語処理に課題をもたらします。
歴史的な正書法と現代の綴りの間のギャップを最小限に抑えるために、通常は歴史的資料の自動正書法正規化が追求されます。
この報告書は、紀元前からのドイツ文学テキストの正規化システムを提案します。
1700 ~ 1900 年、並列コーパスでトレーニングされました。
提案されたシステムは、Transformer 言語モデルを使用した機械学習アプローチを利用し、個々の単語タイプを正規化するエンコーダー/デコーダー モデルと、コンテキスト内でこれらの正規化を調整する事前トレーニングされた因果言語モデルを組み合わせます。
広範な評価により、提案されたシステムは、事前トレーニング済みの Transformer の大規模言語モデルを微調整した、はるかに大規模な完全にエンドツーエンドの文ベースの正規化システムに匹敵する最先端の精度を提供することが示されています。
しかし、歴史的テキストの正規化は、モデルの一般化が困難であり、広範で高品質の並列データが不足しているため、依然として課題が残っています。

要約(オリジナル)

Historic variations of spelling poses a challenge for full-text search or natural language processing on historical digitized texts. To minimize the gap between the historic orthography and contemporary spelling, usually an automatic orthographic normalization of the historical source material is pursued. This report proposes a normalization system for German literary texts from c. 1700-1900, trained on a parallel corpus. The proposed system makes use of a machine learning approach using Transformer language models, combining an encoder-decoder model to normalize individual word types, and a pre-trained causal language model to adjust these normalizations within their context. An extensive evaluation shows that the proposed system provides state-of-the-art accuracy, comparable with a much larger fully end-to-end sentence-based normalization system, fine-tuning a pre-trained Transformer large language model. However, the normalization of historical text remains a challenge due to difficulties for models to generalize, and the lack of extensive high-quality parallel data.

arxiv情報

著者 Anton Ehrmanntraut
発行日 2024-09-04 16:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク