要約
近年の自然言語処理における目覚ましい改善は、主に文脈ニューラル言語モデルの成功に基づくものだが、そのほとんどは、せいぜい数十の高リソース言語で実証されているに過ぎない。非標準化言語や低リソース言語に対する言語モデルや、より一般的なNLPシステムの構築は、依然として困難な課題である。この研究では、主にソーシャルメディアやメッセージング・コミュニケーションで見られる、NArabiziと呼ばれるラテン文字の拡張を使って書かれた北アフリカの口語方言アラビア語に焦点を当てる。この低リソースシナリオでは、データのばらつきが大きいため、品詞タグ付けと係り受け解析において、文字ベースの言語モデルの下流の性能を、単言語モデルと多言語モデルとで比較する。NArabizi語のわずか99kセンテンスで訓練され、この言語の小さなツリーバンクで微調整された文字ベースモデルが、大規模な多言語モデルや単言語モデルで事前に訓練された同じアーキテクチャで得られた性能に近い性能をもたらすことを示す。ノイズの多いフランス語のユーザー生成コンテンツからなる、より大規模なデータセットでこれらの結果を確認することで、このような文字ベースの言語モデルは、低リソースで言語のばらつきの大きいセット環境におけるNLPの資産になりうると主張する。
要約(オリジナル)
Recent impressive improvements in NLP, largely based on the success of contextual neural language models, have been mostly demonstrated on at most a couple dozen high-resource languages. Building language models and, more generally, NLP systems for non-standardized and low-resource languages remains a challenging task. In this work, we focus on North-African colloquial dialectal Arabic written using an extension of the Latin script, called NArabizi, found mostly on social media and messaging communication. In this low-resource scenario with data displaying a high level of variability, we compare the downstream performance of a character-based language model on part-of-speech tagging and dependency parsing to that of monolingual and multilingual models. We show that a character-based model trained on only 99k sentences of NArabizi and fined-tuned on a small treebank of this language leads to performance close to those obtained with the same architecture pre-trained on large multilingual and monolingual models. Confirming these results a on much larger data set of noisy French user-generated content, we argue that such character-based language models can be an asset for NLP in low-resource and high language variability set-tings.
arxiv情報
著者 | Arij Riabi,Benoît Sagot,Djamé Seddah |
発行日 | 2025-06-03 16:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |