Training Bilingual LMs with Data Constraints in the Targeted Language

要約

大規模な言語モデルは、現在のスケーリング法の要求に従って、Web の大規模なスクレイピングでトレーニングされます。
英語には高品質の事前トレーニング データが豊富にあるため、最も進歩が見られます。
ただし、他のほとんどの言語では、そのような高品質の事前トレーニング データは利用できません。
この研究では、高品質のデータが利用可能な補助言語からデータを取得することによって、データ制約のあるターゲット言語で事前トレーニングされたモデルのパフォーマンスを向上させる方法を研究します。
私たちは、データが豊富な補助言語でのデータを使用したトレーニングとターゲット言語でのトレーニングとのパフォーマンスのギャップを定量化し、翻訳システムのメリットを調査し、データに制約のある言語のモデル スケーリングの限界を研究し、新しい方法を提案することでこれを研究します。
補助言語からのデータのアップサンプリング。
私たちの結果は、より強力な補助データセットにより、近い言語のモデルやトレーニング目標を変更することなくパフォーマンスが向上すること、特に、より情報量の多い英語の事前トレーニング データセットの開発によるパフォーマンスの向上が、ターゲット言語設定にも拡張できることを示しています。
限られたデータ。

要約(オリジナル)

Large language models are trained on massive scrapes of the web, as required by current scaling laws. Most progress is made for English, given its abundance of high-quality pretraining data. For most other languages, however, such high quality pretraining data is unavailable. In this work, we study how to boost pretrained model performance in a data constrained target language by enlisting data from an auxiliary language for which high quality data is available. We study this by quantifying the performance gap between training with data in a data-rich auxiliary language compared with training in the target language, exploring the benefits of translation systems, studying the limitations of model scaling for data constrained languages, and proposing new methods for upsampling data from the auxiliary language. Our results show that stronger auxiliary datasets result in performance gains without modification to the model or training objective for close languages, and, in particular, that performance gains due to the development of more information-rich English pretraining datasets can extend to targeted language settings with limited data.

arxiv情報

著者 Skyler Seto,Maartje ter Hoeve,He Bai,Natalie Schluter,David Grangier
発行日 2024-11-20 02:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク