要約
伝達学習(下流のタスクで事前学習したモデルをさらに微調整すること)は、下流の性能向上、収束の高速化、サンプル効率の向上など、大きな利点をもたらすことがある。このような利点から、タスクに特化したファインチューニングモデルが急増しましたが、これらのモデルは通常、単一のタスクしか実行できないため、互いに恩恵を受けることはありません。近年、複数のタスクに特化したモデルを、追加学習を行うことなく単一のマルチタスクモデルに統合するソリューションとして、モデルマージ技術が登場しました。しかし、既存のマージ手法は、異なるモデルのパラメータ間の干渉を無視することが多く、複数のモデルをマージする際に大きな性能低下をもたらす。本論文では、先行するマージ手法が、(a)冗長なパラメータ値による干渉、(b)モデル間のパラメータ値の符号の不一致、という2つの主要な干渉源によって、不注意に貴重な情報を失うことを実証する。TIES-Mergingは、モデルのマージ時に、(1)微調整時に少量しか変化しなかったパラメータをリセットする、(2)符号の不一致を解決する、(3)最終的に合意した符号と一致するパラメータのみをマージする、という3つの新しいステップを導入しています。TIES-Mergingは、様々なモダリティ、ドメイン、タスク数、モデルサイズ、アーキテクチャ、ファインチューニングの設定を網羅する多様な設定において、いくつかの既存手法を凌駕することを見出した。さらに、様々な種類の干渉がモデルパラメータに与える影響を分析し、符号干渉を解決することの重要性を強調する。我々のコードは https://github.com/prateeky2806/ties-merging で利用可能です。
要約(オリジナル)
Transfer learning – i.e., further fine-tuning a pre-trained model on a downstream task – can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific fine-tuned models, which typically can only perform a single task and do not benefit from one another. Recently, model merging techniques have emerged as a solution to combine multiple task-specific models into a single multitask model without performing additional training. However, existing merging methods often ignore the interference between parameters of different models, resulting in large performance drops when merging multiple models. In this paper, we demonstrate that prior merging techniques inadvertently lose valuable information due to two major sources of interference: (a) interference due to redundant parameter values and (b) disagreement on the sign of a given parameter’s values across models. To address this, we propose our method, TrIm, Elect Sign & Merge (TIES-Merging), which introduces three novel steps when merging models: (1) resetting parameters that only changed a small amount during fine-tuning, (2) resolving sign conflicts, and (3) merging only the parameters that are in alignment with the final agreed-upon sign. We find that TIES-Merging outperforms several existing methods in diverse settings covering a range of modalities, domains, number of tasks, model sizes, architectures, and fine-tuning settings. We further analyze the impact of different types of interference on model parameters, highlight the importance of resolving sign interference. Our code is available at https://github.com/prateeky2806/ties-merging
arxiv情報
著者 | Prateek Yadav,Derek Tam,Leshem Choshen,Colin Raffel,Mohit Bansal |
発行日 | 2023-06-02 17:31:32+00:00 |
arxivサイト | arxiv_id(pdf) |