要約
BabyLM チャレンジでは、サンプル効率の高い言語モデルを開発するよう参加者に求めました。
提出物は、子供たちが発達段階で触れる単語の量(100m未満)に制限された固定英語コーパスで事前トレーニングされました。
この課題により、データ効率の高い言語モデリングのための新しいアーキテクチャが生み出され、数兆語でトレーニングされたモデルを上回るパフォーマンスを発揮しました。
これは、利用可能なコーパスが 1 億語未満に制限されている低リソース言語では有望です。
このペーパーでは、ケーススタディとして isiXhosa 言語を使用して、低リソース言語に対する BabyLM の可能性を探ります。
私たちは、isiXhosa コーパス上で 2 つの BabyLM アーキテクチャ、ELC-BERT と MLSM を事前トレーニングします。
これらは、POS タグ付けと NER に関してバニラの事前トレーニング済みモデルよりも優れたパフォーマンスを示し、後者については顕著な向上 (+3.2 F1) を達成しました。
場合によっては、BabyLM が XLM-R よりも優れたパフォーマンスを発揮することさえあります。
私たちの調査結果は、データ効率の高いモデルが低リソース言語でも実行可能であることを示していますが、高品質の事前トレーニング データが依然として重要であり、不足していることを浮き彫りにしています。
最後に、BabyLM アーキテクチャが isiXhosa をエンコードする方法を視覚的に分析します。
要約(オリジナル)
The BabyLM challenge called on participants to develop sample-efficient language models. Submissions were pretrained on a fixed English corpus, limited to the amount of words children are exposed to in development (<100m). The challenge produced new architectures for data-efficient language modelling, which outperformed models trained on trillions of words. This is promising for low-resource languages, where available corpora are limited to much less than 100m words. In this paper, we explore the potential of BabyLMs for low-resource languages, using the isiXhosa language as a case study. We pretrain two BabyLM architectures, ELC-BERT and MLSM, on an isiXhosa corpus. They outperform a vanilla pretrained model on POS tagging and NER, achieving notable gains (+3.2 F1) for the latter. In some instances, the BabyLMs even outperform XLM-R. Our findings show that data-efficient models are viable for low-resource languages, but highlight the continued importance, and lack of, high-quality pretraining data. Finally, we visually analyse how BabyLM architectures encode isiXhosa.
arxiv情報
著者 | Alexis Matzopoulos,Charl Hendriks,Hishaam Mahomed,Francois Meyer |
発行日 | 2025-01-07 15:13:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google