Exploring Design Choices for Building Language-Specific LLMs

要約

大規模言語モデル (LLM) は急速に進歩しているにもかかわらず、大部分の言語でのパフォーマンスは依然として満足のいくものではありません。
このペーパーでは、単言語 LLM と多言語 LLM を適応させて言語固有の LLM を構築することを研究します。
私たちは、設計の選択 (基本モデルの選択、語彙拡張、継続的な事前トレーニング) が、効率 (同じ量の情報をエンコードするために必要なトークンの数) と最終タスクのパフォーマンスの両方の観点から、適応された LLM にどのような影響を与えるかについて系統的な実験を行っています。
我々は、(1) LLM の初期パフォーマンスが、適応後の最終パフォーマンスと必ずしも相関するとは限らないことを発見しました。
英語中心のモデルを適応させると、リソースの少ない言語では初期パフォーマンスが悪くなりますが、多言語モデルを適応させるよりも良い結果が得られます。
(2) 私たちが研究しているほとんどの LLM では、単純な語彙拡張と継続的な事前トレーニングによって効率が簡単に向上します。(3) 最適な適応方法 (基本モデル、新しい語彙サイズ、トレーニング データ、初期化戦略の選択) は言語に大きく依存します。
、最も単純な埋め込み初期化は、さまざまな実験設定でうまく機能します。
私たちの取り組みは、既存の LLM を適応させて言語固有の LLM を効率的に構築するための基礎を築きます。

要約(オリジナル)

Despite rapid progress in large language models (LLMs), their performance on a vast majority of languages remains unsatisfactory. In this paper, we study building language-specific LLMs by adapting monolingual and multilingual LLMs. We conduct systematic experiments on how design choices (base model selection, vocabulary extension, and continued pretraining) impact the adapted LLM, both in terms of efficiency (how many tokens are needed to encode the same amount of information) and end task performance. We find that (1) the initial performance of LLM does not always correlate with the final performance after the adaptation. Adapting an English-centric models can yield better results than adapting multilingual models despite their worse initial performance on low-resource languages. (2) Efficiency can easily improved with simple vocabulary extension and continued pretraining in most LLMs we study, and (3) The optimal adaptation method (choice of the base model, new vocabulary size, training data, initialization strategy) is highly language-dependent, and the simplest embedding initialization works well across various experimental settings. Together, our work lays foundations on efficiently building language-specific LLMs by adapting existing LLMs.

arxiv情報

著者 Atula Tejaswi,Nilesh Gupta,Eunsol Choi
発行日 2024-10-30 16:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク