要約
タイトル:言語モデルの重みをマージすることによるデータレスの知識融合
要約:
– 事前に学習された言語モデルの微調整は、ダウンストリームNLPモデルを構築するための主流のパラダイムとなっています。
– 多くの場合、微調整されたモデルはすでに利用可能ですが、そのトレーニングデータは、データプライバシーまたは知的財産権の問題により利用できないため、個々のモデル間で知識を融合してより優れた単一のモデルを生成することには障壁があります。
– 本論文では、異なるトレーニングデータセット上に構築された個々のモデルをマージして、すべてのデータセットドメインでうまく機能し、ドメイン外のデータでも汎化できる単一のモデルを得る問題を研究します。
– 我々は、個々のモデルとマージされたモデルとの予測差異を最小限に抑える重みによってガイドされたデータレスの知識融合方法を提案しています。
– 一連の評価設定において、提案手法がフィッシャー重み付き平均やモデルアンサンブルなどのベースラインを大幅に上回ることを示しました。
– さらに、個々のモデルにアクセスできないデータレスのマルチタスク学習の有望な代替手段であり、個々のモデルを保持または改善できることがわかりました。
– 最後に、モデルマージングはマルチタスクモデルのトレーニングよりも効率的であるため、より幅広いシナリオに適用できます。
要約(オリジナル)
Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios.
arxiv情報
著者 | Xisen Jin,Xiang Ren,Daniel Preotiuc-Pietro,Pengxiang Cheng |
発行日 | 2023-04-28 18:34:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI