要約
【タイトル】言語モデルの重みをマージすることによるデータレスな知識融合
【要約】
– ダウンストリームNLPモデルを構築する主流のパラダイムは、事前学習された言語モデルを微調整することである。
– しかしながら、データプライバシーや知的財産権の問題によって、微調整モデルはしばしば利用可能であるが、訓練データは利用できない。
– それにより、個々のモデル間で知識を融合して、より良い単一モデルを生成することにはバリアが生じる。
– 本論文では、異なる訓練データセットで構築された個々のモデルをマージして、すべてのデータセットドメインにわたって良好なパフォーマンスを発揮し、ドメイン外データでも一般化できる単一モデルを得る方法について研究する。
– 提案されたデータレスな知識融合方法は、個々のモデルとマージモデルとの予測差を最小化する重みによって、パラメータ空間でモデルをマージするものである。
– 本論文では、Fisher重み付け平均やモデルアンサンブルのようなベースラインを上回り、複数タスク学習の有望な代替手段であることが示された。
– さらに、トレーニングデータにアクセスできない場合でも、個々のモデルを維持または改善できる。
– 最後に、モデルのマージングはマルチタスクのトレーニングよりも効率的であるため、より広い範囲のシナリオに適用できる。
要約(オリジナル)
Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios.
arxiv情報
著者 | Xisen Jin,Xiang Ren,Daniel Preotiuc-Pietro,Pengxiang Cheng |
発行日 | 2023-04-05 22:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI