Small Languages, Big Models: A Study of Continual Training on Languages of Norway

要約

大規模な言語モデルのトレーニングには膨大な量のデータが必要であり、ノルウェー語のようなあまり広く話されていない言語、さらには S\’ami のような真にリソースの少ない言語では課題が生じます。
この問題に対処するために、私たちは新しい 3 段階の継続的トレーニング アプローチを提案します。
また、より柔軟なモデルを取得するために、因果言語モデリングとマスクされた言語モデリングを組み合わせて実験します。
私たちの調査結果に基づいて、114 億個のパラメータを持つノルウェー語ブークム語、ニーノシュク語、および北部南アフリカ語のための新しい大規模な生成言語モデル、NorMistral-11B をトレーニング、評価し、公開リリースします。

要約(オリジナル)

Training large language models requires vast amounts of data, posing a challenge for less widely spoken languages like Norwegian and even more so for truly low-resource languages like S\’ami. To address this issue, we present a novel three-stage continual training approach. We also experiment with combining causal and masked language modeling to get more flexible models. Based on our findings, we train, evaluate, and openly release a new large generative language model for Norwegian Bokm\r{a}l, Nynorsk, and Northern S\’ami with 11.4 billion parameters: NorMistral-11B.

arxiv情報

著者 David Samuel,Vladislav Mikhailov,Erik Velldal,Lilja Øvrelid,Lucas Georges Gabriel Charpentier,Andrey Kutuzov
発行日 2024-12-09 13:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク