Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

要約

この論文では、エンコーダベースまたはデコーダベースの言語モデル (LM) が、再トレーニングや GPU を使用せずに相同モデルのパラメータを同化することで新しい機能を獲得できることを明らかにします。
通常、LM の新しい能力は教師あり微調整 (SFT) によって付与され、微調整されたパラメーターと事前トレーニングされたパラメーター (つまりデルタ パラメーター) の間の差異に反映されます。
私たちは最初、DARE (Drop And REscale) と呼ばれる新しい操作を導入することで、SFT LM の機能に影響を与えることなく、ほとんどのデルタ パラメーターを直接ゼロに設定でき、より大きなモデルではより高い割合の破棄パラメーターを許容できることを観察しました。
この観察に基づいて、DARE を使用して複数の SFT 相同モデルのデルタ パラメーターをさらにスパース化し、その後パラメーターの平均化によってそれらを単一のモデルにマージします。
BERT と RoBERTa を使用して、GLUE ベンチマークの 8 つのデータセットに対して実験を実行します。
また、Llama 2 に基づいて WizardLM、WizardMath、および Code Alpaca もマージします。実験結果は次のことを示しています。 (1) SFT モデルのデルタ パラメーター値の範囲は通常小さく、多くの場合 0.005 以内ですが、DARE はそれらの 99% を簡単に除去できます。
ただし、モデルが継続的に事前トレーニングされると、値の範囲が約 0.03 まで拡大する可能性があり、DARE は実用的ではなくなります。
また、デルタ パラメータではなく微調整パラメータを削除しようとしましたが、10% 削減するとパフォーマンスが大幅に低下する可能性があることがわかりました (0 になる場合もあります)。
これは、SFT が LM に新しい能力を注入するのではなく、デルタ パラメーターを介して能力を刺激するだけであることを強調しています。
(2) DARE は、複数のタスク固有の LM を、多様な機能を持つ 1 つの LM にマージできます。
たとえば、WizardLM と WizardMath の合併により、WizardLM の GSM8K ゼロショット精度が 2.2 から 66.3 に向上し、WizardMath のオリジナルの 64.2 パフォーマンスを超えながら、その命令追従能力を維持します。
コードは https://github.com/yule-BUAA/MergeLM で入手できます。

要約(オリジナル)

In this paper, we uncover that Language Models (LMs), either encoder- or decoder-based, can obtain new capabilities by assimilating the parameters of homologous models without retraining or GPUs. Typically, new abilities of LMs can be imparted by Supervised Fine-Tuning (SFT), reflected in the disparity between fine-tuned and pre-trained parameters (i.e., delta parameters). We initially observe that by introducing a novel operation called DARE (Drop And REscale), most delta parameters can be directly set to zeros without affecting the capabilities of SFT LMs and larger models can tolerate a higher proportion of discarded parameters. Based on this observation, we further sparsify delta parameters of multiple SFT homologous models with DARE and subsequently merge them into a single model by parameter averaging. We conduct experiments on eight datasets from the GLUE benchmark with BERT and RoBERTa. We also merge WizardLM, WizardMath, and Code Alpaca based on Llama 2. Experimental results show that: (1) The delta parameter value ranges for SFT models are typically small, often within 0.005, and DARE can eliminate 99% of them effortlessly. However, once the models are continuously pre-trained, the value ranges can grow to around 0.03, making DARE impractical. We have also tried to remove fine-tuned instead of delta parameters and find that a 10% reduction can lead to drastically decreased performance (even to 0). This highlights that SFT merely stimulates the abilities via delta parameters rather than injecting new abilities into LMs; (2) DARE can merge multiple task-specific LMs into one LM with diverse abilities. For instance, the merger of WizardLM and WizardMath improves the GSM8K zero-shot accuracy of WizardLM from 2.2 to 66.3, retaining its instruction-following ability while surpassing WizardMath’s original 64.2 performance. Codes are available at https://github.com/yule-BUAA/MergeLM.

arxiv情報

著者 Le Yu,Bowen Yu,Haiyang Yu,Fei Huang,Yongbin Li
発行日 2023-11-06 13:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク