PuoBERTa: Training and evaluation of a curated language model for Setswana

要約

自然言語処理 (NLP) は、英語などのリソースが豊富な言語では大幅な進歩を遂げていますが、Setswana のようなリソースが少ない言語では遅れをとっています。
この文書では、Setswana 用に特別にトレーニングされたカスタマイズされたマスク言語モデルである PuoBERTa を紹介することで、このギャップに対処します。
PuoBERTa のトレーニング用に高品質のコーパスを生成するために、多様な単言語テキストをどのように収集、厳選、準備したかについて説明します。
Setswana 用の単一言語リソースを作成するという以前の取り組みに基づいて、品詞 (POS) のタグ付け、固有表現認識 (NER)、ニュースの分類など、いくつかの NLP タスクにわたって PuoBERTa を評価しました。
さらに、新しいセツワナ ニュース分類データセットを導入し、PuoBERTa を使用した初期ベンチマークを提供しました。
私たちの研究は、セツワナ語のような十分に研究されていない言語の NLP 機能を促進する上で PuoBERTa の有効性を実証し、将来の研究の方向性への道を開くものです。

要約(オリジナル)

Natural language processing (NLP) has made significant progress for well-resourced languages such as English but lagged behind for low-resource languages like Setswana. This paper addresses this gap by presenting PuoBERTa, a customised masked language model trained specifically for Setswana. We cover how we collected, curated, and prepared diverse monolingual texts to generate a high-quality corpus for PuoBERTa’s training. Building upon previous efforts in creating monolingual resources for Setswana, we evaluated PuoBERTa across several NLP tasks, including part-of-speech (POS) tagging, named entity recognition (NER), and news categorisation. Additionally, we introduced a new Setswana news categorisation dataset and provided the initial benchmarks using PuoBERTa. Our work demonstrates the efficacy of PuoBERTa in fostering NLP capabilities for understudied languages like Setswana and paves the way for future research directions.

arxiv情報

著者 Vukosi Marivate,Moseli Mots’Oehli,Valencia Wagner,Richard Lastrucci,Isheanesu Dzingirai
発行日 2023-10-24 16:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク