BBPOS: BERT-based Part-of-Speech Tagging for Uzbek

要約

この論文は、品詞 (POS) タグ付けタスクでこれまでテストされていなかった 2 つの単言語ウズベク語 BERT モデルを評価し、ウズベク語で初の公的に利用可能な UPOS タグ付きベンチマーク データセットを導入することにより、低リソースのウズベク語の NLP 研究を前進させます。
当社の微調整されたモデルは平均 91% の精度を達成し、ベースラインの多言語 BERT やルールベースのタグ付け機能を上回ります。
特に、これらのモデルは、既存のルールベースのタガーとは異なり、接辞を通じて中間 POS 変更をキャプチャし、コンテキストの敏感性を示します。

要約(オリジナル)

This paper advances NLP research for the low-resource Uzbek language by evaluating two previously untested monolingual Uzbek BERT models on the part-of-speech (POS) tagging task and introducing the first publicly available UPOS-tagged benchmark dataset for Uzbek. Our fine-tuned models achieve 91% average accuracy, outperforming the baseline multi-lingual BERT as well as the rule-based tagger. Notably, these models capture intermediate POS changes through affixes and demonstrate context sensitivity, unlike existing rule-based taggers.

arxiv情報

著者 Latofat Bobojonova,Arofat Akhundjanova,Phil Ostheimer,Sophie Fellenz
発行日 2025-01-17 10:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク