Do Language Models Care About Text Quality? Evaluating Web-Crawled Corpora Across 11 Languages

要約

Web クロールされた大規模な厳選されたコーパスは、言語モデル (LM) のトレーニングにおいて重要な役割を果たします。
これらは、有名な GPT、LLaMA、XLM-RoBERTa モデルなど、事実上すべての最近の LM のトレーニング データの大部分を占めています。
しかし、この重要性にもかかわらず、これらのコーパスの品質には比較的ほとんど注目されていません。
この論文では、リソースの少ないヨーロッパの 11 言語にわたって、現在最も関連性の高い Web クロールされた大規模コーパス 4 つ (CC100、MaCoCu、mC4、OSCAR) を比較します。
私たちのアプローチは 2 つあります。1 つは、さまざまな身体から採取されたサンプルの品質について人間による評価を実行することにより、本質的な評価を実行することです。
次に、各コーパスで特定の LM をトレーニングし、下流のタスクでのパフォーマンスを評価することで、質的な違いの実際的な影響を評価します。
コーパスの品質には明らかな違いがあり、MaCoCu と OSCAR が最良の結果を得ていることがわかりました。
ただし、外部評価中に、CC100 コーパスが最高のスコアを達成していることが実際にわかりました。
私たちの実験では、ウェブクロールされたコーパスの品質は、LM をトレーニングする際に重要な役割を果たしていないように見えると結論付けています。

要約(オリジナル)

Large, curated, web-crawled corpora play a vital role in training language models (LMs). They form the lion’s share of the training data in virtually all recent LMs, such as the well-known GPT, LLaMA and XLM-RoBERTa models. However, despite this importance, relatively little attention has been given to the quality of these corpora. In this paper, we compare four of the currently most relevant large, web-crawled corpora (CC100, MaCoCu, mC4 and OSCAR) across eleven lower-resourced European languages. Our approach is two-fold: first, we perform an intrinsic evaluation by performing a human evaluation of the quality of samples taken from different corpora; then, we assess the practical impact of the qualitative differences by training specific LMs on each of the corpora and evaluating their performance on downstream tasks. We find that there are clear differences in quality of the corpora, with MaCoCu and OSCAR obtaining the best results. However, during the extrinsic evaluation, we actually find that the CC100 corpus achieves the highest scores. We conclude that, in our experiments, the quality of the web-crawled corpora does not seem to play a significant role when training LMs.

arxiv情報

著者 Rik van Noord,Taja Kuzman,Peter Rupnik,Nikola Ljubešić,Miquel Esplà-Gomis,Gema Ramírez-Sánchez,Antonio Toral
発行日 2024-03-13 16:56:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク