要約
世界のテキスト遺産のデジタル化の増加は、コンピューターサイエンスと文学研究の両方に大きな課題をもたらします。
全体として、正書法やスペルのバリエーション、断片的な構造、デジタル化エラーなど、歴史的テキストの課題に適応できる計算技術が緊急に必要です。
大規模な言語モデル(LLMS)の台頭は、自然言語処理に革命をもたらし、履歴文書に関する名前付きエンティティ認識(NER)の有望なアプリケーションを示唆しています。
これにもかかわらず、イタリアのテキストについては徹底的な評価は提案されていません。
この研究は、19世紀の学術ノートのコーパス、つまりGiacomo Leopardiのジバルドン(1898)のコーパスに基づいて、エンティティ抽出のための新しい挑戦的なデータセットを提案することにより、ギャップを埋めようとします。
このデータセットは、ドメイン固有のBERTベースのモデルとllama3.1などの最先端のLLMの両方で再現可能な実験を実行するために使用されました。
結果は、命令チューニングされたモデルが歴史的なヒューマニックなテキストを処理する複数の困難に遭遇し、微調整されたNERモデルは、書誌参照などの挑戦的なエンティティタイプでも、より堅牢なパフォーマンスを提供することを示しています。
要約(オリジナル)
The increased digitization of world’s textual heritage poses significant challenges for both computer science and literary studies. Overall, there is an urgent need of computational techniques able to adapt to the challenges of historical texts, such as orthographic and spelling variations, fragmentary structure and digitization errors. The rise of large language models (LLMs) has revolutionized natural language processing, suggesting promising applications for Named Entity Recognition (NER) on historical documents. In spite of this, no thorough evaluation has been proposed for Italian texts. This research tries to fill the gap by proposing a new challenging dataset for entity extraction based on a corpus of 19th century scholarly notes, i.e. Giacomo Leopardi’s Zibaldone (1898), containing 2,899 references to people, locations and literary works. This dataset was used to carry out reproducible experiments with both domain-specific BERT-based models and state-of-the-art LLMs such as LLaMa3.1. Results show that instruction-tuned models encounter multiple difficulties handling historical humanistic texts, while fine-tuned NER models offer more robust performance even with challenging entity types such as bibliographic references.
arxiv情報
著者 | Cristian Santini,Laura Melosi,Emanuele Frontoni |
発行日 | 2025-05-26 15:16:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google