ChocoLlama: Lessons Learned From Teaching Llamas Dutch

要約

大規模言語モデル (LLM) は、自然言語の理解と生成において顕著な能力を示していますが、トレーニング データの偏りにより、リソースの少ない非英語言語ではパフォーマンスが遅れることがよくあります。
この研究では、主に英語の LLM (Llama-2 および Llama-3) を、世界中で 3,000 万人が話しているにもかかわらず、LLM 開発では過小評価されることが多い言語であるオランダ語に適応させる戦略を検討します。
私たちはさまざまなソースから 104GB のオランダ語テキスト ($32$B トークン) を収集し、最初に低ランク適応 (LoRA) を使用した継続的な事前トレーニングを適用し、以前の研究で提供されたオランダ語のポストトレーニング戦略で補完しました。
Llama-2 の場合、(i) 元のモデルのトークナイザーの使用、および (ii) 埋め込み再初期化と組み合わせた新しいオランダ固有のトークナイザーのトレーニングを検討します。
標準ベンチマークとオランダの新しいベンチマークである ChocoLlama-Bench の両方で、適応モデル ChocoLlama-2 を評価します。
私たちの結果は、LoRA が言語適応のために効果的にスケーリングできること、および慎重な重みの再初期化によるトークナイザーの変更がパフォーマンスを向上できることを示しています。
特に、Llama-3 はこのプロジェクトの進行中にリリースされ、評価の結果、オランダ語に適応した Llama-2 バージョンと比較して優れたオランダ語の機能を実証しました。
したがって、元のトークナイザーを使用して、同じ適応手法を Llama-3 に適用します。
私たちの適応方法は Llama-2 のオランダの機能を強化しましたが、同じ技術を Llama-3 に適用すると得られる効果は限られていることがわかりました。
これは、多言語基礎モデルを継続的に改善するために、言語適応技術は継続的な事前トレーニングよりも言語固有の事後トレーニングに焦点を当てたほうがより有益である可能性があることを示唆しています。
この研究が、LLM を低リソース言語に適応させることについてのより広範な理解に貢献し、特にオランダの LLM の開発に貢献することを願っています。

要約(オリジナル)

While Large Language Models (LLMs) have shown remarkable capabilities in natural language understanding and generation, their performance often lags in lower-resource, non-English languages due to biases in the training data. In this work, we explore strategies for adapting the primarily English LLMs (Llama-2 and Llama-3) to Dutch, a language spoken by 30 million people worldwide yet often underrepresented in LLM development. We collect 104GB of Dutch text ($32$B tokens) from various sources to first apply continued pretraining using low-rank adaptation (LoRA), complemented with Dutch posttraining strategies provided by prior work. For Llama-2, we consider using (i) the tokenizer of the original model, and (ii) training a new, Dutch-specific tokenizer combined with embedding reinitialization. We evaluate our adapted models, ChocoLlama-2, both on standard benchmarks and a novel Dutch benchmark, ChocoLlama-Bench. Our results demonstrate that LoRA can effectively scale for language adaptation, and that tokenizer modification with careful weight reinitialization can improve performance. Notably, Llama-3 was released during the course of this project and, upon evaluation, demonstrated superior Dutch capabilities compared to our Dutch-adapted versions of Llama-2. We hence apply the same adaptation technique to Llama-3, using its original tokenizer. While our adaptation methods enhanced Llama-2’s Dutch capabilities, we found limited gains when applying the same techniques to Llama-3. This suggests that for ever improving, multilingual foundation models, language adaptation techniques may benefit more from focusing on language-specific posttraining rather than on continued pretraining. We hope this work contributes to the broader understanding of adapting LLMs to lower-resource languages, and to the development of Dutch LLMs in particular.

arxiv情報

著者 Matthieu Meeus,Anthony Rathé,François Remy,Pieter Delobelle,Jens-Joris Decorte,Thomas Demeester
発行日 2024-12-10 16:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク