Small Languages, Big Models: A Study of Continual Training on Languages of Norway

要約

大規模な言語モデルの学習には膨大な量のデータが必要であり、ノルウェー語のようなあまり広く話されていない言語や、北スアミ語のような本当にリソースの少ない言語ではなおさらである。この問題に対処するため、我々は、ターゲット言語の推論効率とともに、下流の性能を大幅に改善する、新しい3段階の継続的学習アプローチを提示する。この結果に基づき、ノルウェー語ボクム語、ニーノシュク語、ノーザン・スアミ語の新しい生成言語モデルを訓練、評価し、114億個のパラメータを持つモデルとして公開する:NorMistral-11B。

要約(オリジナル)

Training large language models requires vast amounts of data, posing a challenge for less widely spoken languages like Norwegian and even more so for truly low-resource languages like Northern S\’ami. To address this issue, we present a novel three-stage continual training approach that substantially improves the downstream performance together with the inference efficiency for the target languages. Based on our findings, we train, evaluate, and openly release a new generative language model for Norwegian Bokm\r{a}l, Nynorsk, and Northern S\’ami with 11.4 billion parameters: NorMistral-11B.

arxiv情報

著者 David Samuel,Vladislav Mikhailov,Erik Velldal,Lilja Øvrelid,Lucas Georges Gabriel Charpentier,Andrey Kutuzov,Stephan Oepen
発行日 2025-02-02 23:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク