Facilitating large language model Russian adaptation with Learned Embedding Propagation

要約

大規模言語モデル (LLM) テクノロジの急速な進歩により、GPT-4 などの最先端の言語モデルと同じテキスト生成品質を持つ強力なオープンソースの命令調整済み LLM が導入されました。
このようなモデルの出現により、機密情報環境での LLM テクノロジーの導入が加速しますが、そのようなモデルの作成者は結果の再現に必要なトレーニング データを開示していないため、成果はモデル限定となっています。
これらのオープンソース モデルも多言語であるため、推論計算効率の向上がそのようなコストのかかる手順で唯一保証される利点となるため、言語固有の LLM をトレーニングする利点が減ります。
語彙の拡張やその後の継続的な事前トレーニングなど、よりコスト効率の高いオプションも、高品質の命令チューニング データへのアクセスの欠如によって妨げられます。これは、結果として得られる LLM タスク解決機能の背後にある主な要因であるためです。
この制限に対処し、言語適応パイプラインのコストを削減するために、学習済み埋め込み伝播 (LEP) を提案します。
既存のアプローチとは異なり、私たちの方法では、既存の LLM 知識への影響が最小限に抑えられるため、トレーニング データ サイズ要件が低くなります。これは、命令チューニング ステップをスキップし、代わりに新しい言語知識を既存の言語知識に直接埋め込むことを可能にする新しいアドホック埋め込み伝播手順を使用して強化します。
命令調整されたバリアント。
LLaMa-3-8B および Mistral-7B に対する 4 つのロシア語語彙の適応を評価したところ、LEP が従来の命令チューニング方法と競合し、OpenChat 3.5 および LLaMa-3-8B-Instruct に匹敵するパフォーマンスを達成し、自己学習によるさらなる改善が見られることが示されました。
キャリブレーションと継続的なチューニングにより、タスク解決能力が強化されます。

要約(オリジナル)

Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the state-of-the-art counterparts such as GPT-4. While the emergence of such models accelerates the adoption of LLM technologies in sensitive-information environments the authors of such models don not disclose the training data necessary for replication of the results thus making the achievements model-exclusive. Since those open-source models are also multilingual this in turn reduces the benefits of training a language specific LLMs as improved inference computation efficiency becomes the only guaranteed advantage of such costly procedure. More cost-efficient options such as vocabulary extension and subsequent continued pre-training are also inhibited by the lack of access to high-quality instruction-tuning data since it is the major factor behind the resulting LLM task-solving capabilities. To address the limitations and cut the costs of the language adaptation pipeline we propose Learned Embedding Propagation (LEP). Unlike existing approaches our method has lower training data size requirements due to minimal impact on existing LLM knowledge which we reinforce using novel ad-hoc embedding propagation procedure that allows to skip the instruction-tuning step and instead implant the new language knowledge directly into any existing instruct-tuned variant. We evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B, showing that LEP is competitive with traditional instruction-tuning methods, achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with further improvements via self-calibration and continued tuning enhancing task-solving capabilities.

arxiv情報

著者 Mikhail Tikhomirov,Daniil Chernyshev
発行日 2024-12-30 18:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク