要約
テクスト間の暗示は古典文献学において極めて重要な役割を果たしており、ラテン語の著者は古代ギリシャ語のテクストを頻繁に参照しています。
これまで、これらのテキスト間参照の自動識別は単一言語のアプローチに限定されており、ラテン語またはギリシャ語のテキスト内のみで類似点を探していました。
この研究では、古典文献学向けに調整された三言語の Sentence-RoBERTa モデルである SPhilBERTa を紹介します。これは、古代ギリシャ語、ラテン語、英語にわたる言語を超えた意味理解と同一文の識別に優れています。
英語のテキストを古代ギリシャ語に自動的に翻訳することで、新しいトレーニング データを生成します。
さらに、テキスト間並列の自動検出を容易にする SPhilBERTa の機能を実証するケーススタディを紹介します。
私たちのモデルとリソースは、https://github.com/Heidelberg-NLP/ancient- language-models で入手できます。
要約(オリジナル)
Intertextual allusions hold a pivotal role in Classical Philology, with Latin authors frequently referencing Ancient Greek texts. Until now, the automatic identification of these intertextual references has been constrained to monolingual approaches, seeking parallels solely within Latin or Greek texts. In this study, we introduce SPhilBERTa, a trilingual Sentence-RoBERTa model tailored for Classical Philology, which excels at cross-lingual semantic comprehension and identification of identical sentences across Ancient Greek, Latin, and English. We generate new training data by automatically translating English texts into Ancient Greek. Further, we present a case study, demonstrating SPhilBERTa’s capability to facilitate automated detection of intertextual parallels. Our models and resources are available at https://github.com/Heidelberg-NLP/ancient-language-models.
arxiv情報
著者 | Frederick Riemenschneider,Anette Frank |
発行日 | 2023-08-23 08:54:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google