Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough

要約

私たちは、限られた学術予算で言語適応のための LLM の継続的な事前トレーニングを調査します。これは、非常に制約された期間、少数の GPU のみを並行して使用できる設定です。
私たちは、Mistral-7B をドイツ語またはアラビア語に適応させることに重点を置き、この設定での効率と有効性を向上させるためのいくつかの手法を評価します。
この厳しいコンピューティング予算に適応したドイツ語モデルは、ベースの Mistral-7B と比較してパフォーマンスが劣りますが、アラビア語モデルはいくつかのベースラインを上回っており、十分によく表現されている言語では、専門化のための事前トレーニングを継続することが必ずしも役立つわけではないことが示されています。
私たちの主な調査結果は、トレーニングの精度とトークナイザーのスワッピングに焦点を当てています。
私たちの結果は、純粋な bfloat16 トレーニングが混合精度トレーニングの実行可能な代替手段であると同時に、少数の GPU のみを使用する場合にははるかに高速であることを示しています。
トークナイザーを特殊なトークナイザーに交換すると、より効率的なトークナイゼーションが得られ、既にドイツ語のトークンがいくつか含まれている元のトークナイザーと競合しますが、ドイツ語のパフォーマンスは大幅に向上しませんでした。
コードとモデルの重みは、GitHub で入手できます。

要約(オリジナル)

We investigate continued pretraining of LLMs for language adaptation on a tight academic budget: a setting in which only a few GPUs can be used in parallel, for a heavily constrained duration. We focus on adapting Mistral-7B to German or Arabic and evaluate several techniques to improve efficiency and effectiveness in this setting. Our German models adapted on this tight compute budget underperform compared to the base Mistral-7B, while our Arabic models outperform several baselines, showing that for sufficiently well-represented languages, continued pretraining for specialization is not always helpful. Our main findings focus on training precision and tokenizer swapping. Our results show that pure bfloat16 training is a viable alternative to mixed-precision training, while being much faster when only using a few GPUs. Swapping the tokenizer for a specialized one yields more efficient tokenization and is competitive with the original tokenizer, which already contains some German tokens, but did not significantly increase performance for German. Code and model weights are available at on GitHub.

arxiv情報

著者 Konstantin Dobler,Gerard de Melo
発行日 2024-08-28 13:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク