Derivative Free Weight-space Ensembling

要約

最近の研究では、2 つの特殊な言語モデルの重みの間を補間することで、マルチタスク学習では不可能な方法でタスク間で知識を伝達できることが示唆されています。
しかし、それぞれが異なる知識ベースを持つ 3 つ以上のモデル間の補間を検討した人はほとんどいません。
この論文では、オープンドメイン対話のための新しい少数サンプルのタスク転送アプローチである Derivative Free Weight-space Ensembling (DFWE) を紹介します。
私たちのフレームワークは、事前定義されたソース タスクのセットを使用してトレーニングされた一連の多様なエキスパート言語モデルを作成します。
次に、ターゲット タスクに関して各エキスパート モデルを微調整し、いくつかの異なる知識ベースからターゲット タスクにアプローチします。
最後に、無勾配最適化アルゴリズムを使用してモデルの重みの間を線形補間し、適切な補間重みを効率的に見つけます。
FETA-Friends に対するこの方法の有効性が、標準的な事前学習微調整アプローチよりも優れていることを示します。

要約(オリジナル)

Recent work suggests that interpolating between the weights of two specialized language models can transfer knowledge between tasks in a way that multi-task learning cannot. However, very few have explored interpolation between more than two models, where each has a distinct knowledge base. In this paper, we introduce Derivative Free Weight-space Ensembling (DFWE), a new few-sample task transfer approach for open-domain dialogue. Our framework creates a set of diverse expert language models trained using a predefined set of source tasks. Next, we finetune each of the expert models on the target task, approaching the target task from several distinct knowledge bases. Finally, we linearly interpolate between the model weights using a gradient-free-optimization algorithm, to efficiently find a good interpolation weighting. We demonstrate the effectiveness of the method on FETA-Friends outperforming the standard pretrain-finetune approach.

arxiv情報

著者 Dean Ninalga
発行日 2023-07-26 09:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク