Is text normalization relevant for classifying medieval charters?

要約

この研究では、特に文書の日付と場所に焦点を当てて、中世の憲章の分類に対する歴史的テキストの正規化の影響を調査します。
デジタルアーカイブからの中高地ドイツ憲章のデータセットを使用して、正規化の有無にかかわらず、従来のモデルや変圧器ベースのモデルを含むさまざまな分類子を評価します。
私たちの結果は、特定の正規化によって位置特定タスクは最小限に改善されるものの、年代測定の精度が低下することを示しており、元のテキストには正規化によって不明瞭になる可能性のある重要な特徴が含まれていることを意味します。
サポート ベクター マシンと勾配ブースティングが他のモデルよりも優れていることがわかり、このユースケースにおけるトランスフォーマーの効率に疑問が生じます。
結果は、歴史的テキストの正規化に対する選択的なアプローチを示唆しており、文書分析における分類タスクに重要ないくつかのテキストの特徴を保存することの重要性を強調しています。

要約(オリジナル)

This study examines the impact of historical text normalization on the classification of medieval charters, specifically focusing on document dating and locating. Using a data set of Middle High German charters from a digital archive, we evaluate various classifiers, including traditional and transformer-based models, with and without normalization. Our results indicate that the given normalization minimally improves locating tasks but reduces accuracy for dating, implying that original texts contain crucial features that normalization may obscure. We find that support vector machines and gradient boosting outperform other models, questioning the efficiency of transformers for this use case. Results suggest a selective approach to historical text normalization, emphasizing the significance of preserving some textual characteristics that are critical for classification tasks in document analysis.

arxiv情報

著者 Florian Atzenhofer-Baumgartner,Tamás Kovács
発行日 2024-08-29 11:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク