要約
現存するラテン語の木の堤防は、17 世紀にわたるさまざまな文化にまたがるラテン語の長い文字の伝統に基づいています。
最近では、形態学的タガーのトレーニングと評価を改善するために、これらのツリーバンクのアノテーションを調和させる取り組みが始まりました。
ただし、効果的で信頼性の高いデータを構築するには、これらのツリーバンクの異質性を慎重に考慮する必要があります。
この研究では、既存のラテン語ツリーバンクをレビューして、それらが引用しているテキストを特定し、それらの重複を特定し、時代とジャンルを超えてその範囲を文書化します。
さらに、形態学的特徴の注釈を標準ラテン語文法の規則に自動変換する設計も行っています。
これから、既存のツリーバンクから抽出した新しい期間データ分割を構築し、これを使用して POS および形態学的特徴のタグ付けのための広範な時間横断分析を実行します。
BERT ベースのタガーは既存のタガーよりも優れたパフォーマンスを発揮すると同時に、クロスドメインのシフトに対してもより堅牢であることがわかりました。
要約(オリジナル)
Existing Latin treebanks draw from Latin’s long written tradition, spanning 17 centuries and a variety of cultures. Recent efforts have begun to harmonize these treebanks’ annotations to better train and evaluate morphological taggers. However, the heterogeneity of these treebanks must be carefully considered to build effective and reliable data. In this work, we review existing Latin treebanks to identify the texts they draw from, identify their overlap, and document their coverage across time and genre. We additionally design automated conversions of their morphological feature annotations into the conventions of standard Latin grammar. From this, we build new time-period data splits that draw from the existing treebanks which we use to perform a broad cross-time analysis for POS and morphological feature tagging. We find that BERT-based taggers outperform existing taggers while also being more robust to cross-domain shifts.
arxiv情報
著者 | Marisa Hudspeth,Brendan O’Connor,Laure Thompson |
発行日 | 2024-08-13 06:55:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google