要約
私たちは、Llama2-7B に基づくデンマーク語大規模言語モデル (LLM) である SnakModel を紹介します。これは、1360 億のデンマーク語単語で継続的に事前トレーニングされ、さらに 370 万のデンマーク語命令で調整されます。
小規模な言語コミュニティ向けの LLM 作成のベスト プラクティスはまだ確立されていないため、トレーニング パイプライン全体を通じて下流のパフォーマンスに対する初期のモデリングとトレーニングの決定の影響を調査します。これには、(1) デンマーク語テキストの厳密に厳選されたコーパスの作成が含まれます。
多様な情報源。
(2) 中間トレーニングのダイナミクスの分析や、さまざまなハイパーパラメーターにわたるアブレーションを含む、言語モデリングと命令チューニングのトレーニング プロセス自体。
(3) 8 つの言語および文化に特有のタスクに関する評価。
これらの実験全体を通じて、SnakModel は最高の総合パフォーマンスを達成し、複数の最新の Llama2-7B ベースのモデルを上回りました。
私たちの事前トレーニング コーパスの大部分である SnakModel と関連コードをオープン ライセンスで利用できるようにすることで、デンマークの自然言語処理のさらなる研究開発を促進し、同様のリソース制約を持つ言語のトレーニング ガイドラインを確立したいと考えています。
要約(オリジナル)
We present SnakModel, a Danish large language model (LLM) based on Llama2-7B, which we continuously pre-train on 13.6B Danish words, and further tune on 3.7M Danish instructions. As best practices for creating LLMs for smaller language communities have yet to be established, we examine the effects of early modeling and training decisions on downstream performance throughout the entire training pipeline, including (1) the creation of a strictly curated corpus of Danish text from diverse sources; (2) the language modeling and instruction-tuning training process itself, including the analysis of intermediate training dynamics, and ablations across different hyperparameters; (3) an evaluation on eight language and culturally-specific tasks. Across these experiments SnakModel achieves the highest overall performance, outperforming multiple contemporary Llama2-7B-based models. By making SnakModel, the majority of our pre-training corpus, and the associated code available under open licenses, we hope to foster further research and development in Danish Natural Language Processing, and establish training guidelines for languages with similar resource constraints.
arxiv情報
著者 | Mike Zhang,Max Müller-Eberstein,Elisa Bassignana,Rob van der Goot |
発行日 | 2024-12-17 14:38:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google