要約
この研究では、オスマントルコ語の最初の依存関係ツリーバンクに対して、事前トレーニングされた大規模言語モデルベースのアノテーション方法論を導入しました。
私たちの実験結果は、i) 多言語 BERT ベースの解析モデルを使用してデータに疑似注釈を付ける、ii) 疑似注釈を手動で修正する、および iii) 修正された注釈を使用して解析モデルを微調整することを繰り返すことで、速度が向上し、
困難な依存関係の注釈プロセスを簡素化します。
結果として得られるツリーバンクは、ユニバーサル依存関係 (UD) プロジェクトの一部となり、オスマントルコ語文書の自動分析を容易にし、この歴史的遺産に埋め込まれた言語の豊かさを解き放ちます。
要約(オリジナル)
This study introduces a pretrained large language model-based annotation methodology for the first dependency treebank in Ottoman Turkish. Our experimental results show that, iteratively, i) pseudo-annotating data using a multilingual BERT-based parsing model, ii) manually correcting the pseudo-annotations, and iii) fine-tuning the parsing model with the corrected annotations, we speed up and simplify the challenging dependency annotation process. The resulting treebank, that will be a part of the Universal Dependencies (UD) project, will facilitate automated analysis of Ottoman Turkish documents, unlocking the linguistic richness embedded in this historical heritage.
arxiv情報
著者 | Şaziye Betül Özateş,Tarık Emre Tıraş,Efe Eren Genç,Esma Fatıma Bilgin Taşdemir |
発行日 | 2024-02-22 17:58:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google