要約
この論文は、品詞 (POS) タグ付けタスクでこれまでテストされていなかった 2 つの単言語ウズベク語 BERT モデルを評価し、ウズベク語で初の公的に利用可能な UPOS タグ付きベンチマーク データセットを導入することにより、低リソースのウズベク語の NLP 研究を前進させます。
当社の微調整されたモデルは平均 91% の精度を達成し、ベースラインの多言語 BERT やルールベースのタグ付け機能を上回ります。
特に、これらのモデルは、既存のルールベースのタガーとは異なり、接辞を通じて中間 POS 変更をキャプチャし、コンテキストの敏感性を示します。
要約(オリジナル)
This paper advances NLP research for the low-resource Uzbek language by evaluating two previously untested monolingual Uzbek BERT models on the part-of-speech (POS) tagging task and introducing the first publicly available UPOS-tagged benchmark dataset for Uzbek. Our fine-tuned models achieve 91% average accuracy, outperforming the baseline multi-lingual BERT as well as the rule-based tagger. Notably, these models capture intermediate POS changes through affixes and demonstrate context sensitivity, unlike existing rule-based taggers.
arxiv情報
著者 | Latofat Bobojonova,Arofat Akhundjanova,Phil Ostheimer,Sophie Fellenz |
発行日 | 2025-01-17 10:50:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google