Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement

要約

大規模言語モデル (LLM) のマージは、複数の同種の LLM をすべての機能を備えた 1 つに統合することを目的としています。
理想的には、同じバックボーンを共有する LLM は、パラメータがわずかに変更された微調整 (FT) であるか、パラメータが大幅に変更された事前トレーニング (PT) であるかに関係なく、マージ可能である必要があります。
ただし、既存の方法ではモデルの重要度を手動で割り当てることが多く、複数の FT LLM など、同様のパラメーター変更を行う LLM に対してのみ実行可能になります。
FT LLM と PT LLM の間ではパラメーターの変更範囲が多様であるため、最適な組み合わせを経験的に決定する際に現在のソリューションに課題が生じています。
このペーパーでは、マージ手法の適用可能性を FT から PT LLM まで広げる先駆的な取り組みを行います。
私たちはまず、FT LLM と PT LLM をマージする現在の方法の有効性を調べ、PT LLM の処理に苦労していることを発見しました。
続いて、結合範囲を効果的に拡張するために、WEIght DisENtanglement (WIDEN) に基づくアプローチを導入します。これは、最初にモデルの重みを大きさと方向の成分に分解し、次にそれぞれの寄与を考慮して適応融合を実行します。
実験では、7B および 14B のモデル スケールにわたって、Qwen1.5-Chat (指示に従うスキルを備えた FT LLM) と Sailor (多言語能力を備えた PT LLM) を結合します。
結果は次のことを明らかにしました: (1) 既存のソリューションは通常、Sailor をマージすると失敗し、両方の能力を失うか、指示に従うスキルのみを保持します。
(2) WIDEN は、Sailor の多言語能力を Qwen1.5-Chat に導入し、東南アジア言語に堪能にすることに成功し、基礎的な能力の向上を実現しました。
以前の研究を踏まえて、複数の 13B FT LLM もマージし、WIDEN が命令追従、数学的推論、コード生成スキルのバランスの取れた融合を達成していることを観察しました。

要約(オリジナル)

Merging Large Language Models (LLMs) aims to amalgamate multiple homologous LLMs into one with all the capabilities. Ideally, any LLMs sharing the same backbone should be mergeable, irrespective of whether they are Fine-Tuned (FT) with minor parameter changes or Pre-Trained (PT) with substantial parameter shifts. However, existing methods often manually assign the model importance, rendering them feasible only for LLMs with similar parameter alterations, such as multiple FT LLMs. The diverse parameter changed ranges between FT and PT LLMs pose challenges for current solutions in empirically determining the optimal combination. In this paper, we make a pioneering effort to broaden the applicability of merging techniques from FT to PT LLMs. We initially examine the efficacy of current methods in merging FT and PT LLMs, discovering that they struggle to deal with PT LLMs. Subsequently, we introduce an approach based on WeIght DisENtanglement (WIDEN) to effectively extend the merging scope, which first disentangles model weights into magnitude and direction components, and then performs adaptive fusion by considering their respective contributions. In the experiments, we merge Qwen1.5-Chat (an FT LLM with instruction-following skills) with Sailor (a PT LLM with multilingual abilities) across 7B and 14B model scales. Results reveal that: (1) existing solutions usually fail when merging Sailor, either losing both abilities or only retaining instruction-following skills; (2) WIDEN successfully injects the multilingual abilities of Sailor into Qwen1.5-Chat and make it proficient in Southeast Asian languages, achieving enhancements in the fundamental capabilities. In light of previous research, we also merge multiple 13B FT LLMs and observe that WIDEN achieves a balanced amalgamation of instruction following, mathematical reasoning, and code generation skills.

arxiv情報

著者 Le Yu,Bowen Yu,Haiyang Yu,Fei Huang,Yongbin Li
発行日 2024-08-06 10:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク