Poro 34B and the Blessing of Multilinguality

要約

最先端の大規模な言語モデルの事前供与には、数兆の単語のテキストが必要です。
複数の言語にテキストを含めることは、より多くの事前トレーニングデータを取得するための明白な方法ですが、多言語性はしばしば呪いと見なされ、ほとんどのモデルトレーニングの取り組みは個々の大手言語にほぼ焦点を当て続けています。
多言語性は祝福になる可能性があると考えています。トレーニングデータの不足がターゲット言語のより大きなモデルを効果的にトレーニングするための制約である場合、他の言語でデータセットを増強すると、その言語の単一言語モデルの機能を改善する方法が提供されます。
この研究では、フィンランド語、英語、プログラミング言語の1兆トークンで訓練された340億個のパラメーターモデルであるPoro 34Bを導入し、多言語トレーニングアプローチがフィンランド語の既存のモデルの能力を大幅に進め、翻訳に拡大するモデルを生成し、英語とプログラミング言語のクラスで競争力のあるパフォーマンスを達成できることを実証します。
https://huggingface.co/lumiopen/poro-34bで、オープンライセンスの下でモデルパラメーター、スクリプト、およびデータをリリースします。

要約(オリジナル)

The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing: when the lack of training data is a constraint for effectively training larger models for a target language, augmenting the dataset with other languages can offer a way to improve over the capabilities of monolingual models for that language. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that substantially advances over the capabilities of existing models for Finnish and excels in translation, while also achieving competitive performance in its class for English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.

arxiv情報

著者 Risto Luukkonen,Jonathan Burdge,Elaine Zosa,Aarne Talman,Ville Komulainen,Väinö Hatanpää,Peter Sarlin,Sampo Pyysalo
発行日 2025-06-10 15:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク