ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning

要約

私たちは、ColD Fusion と呼ばれる、事前学習済みモデルを継続的に進化させるための新しいパラダイムを提案します。
マルチタスク学習の利点を提供しますが、限られた通信で分散計算を活用し、共有データの必要性を排除します。
その結果、ColD Fusion は相乗ループを生み出すことができ、微調整されたモデルを再利用して、そのベースとなる事前トレーニング済みモデルを継続的に改善することができます。
ColD Fusion が、(a) トレーニングされたすべてのデータセットで優れたパフォーマンスを達成するモデルを生成することにより、マルチタスク トレーニングに匹敵する利点をもたらすことを示します。
(b) 目に見えないデータセットを微調整するためのより良い開始点です。
ColD Fusion が RoBERTa や以前のマルチタスク モデルよりも優れていることを示します。
具体的には、35 の多様なデータセットでトレーニングとテストを行った場合、ColD Fusion ベースのモデルは、アーキテクチャに変更を加えることなく、RoBERTa を平均 2.33 ポイント上回りました。

要約(オリジナル)

We propose a new paradigm to continually evolve pretrained models, denoted ColD Fusion. It provides the benefits of multitask learning but leverages distributed computation with limited communication and eliminates the need for shared data. Consequentially, ColD Fusion can give rise to a synergistic loop, where finetuned models can be recycled to continually improve the pretrained model they are based upon. We show that ColD Fusion yields comparable benefits to multitask training by producing a model that (a) attains strong performance on all of the datasets it was trained on; and (b) is a better starting point for finetuning on unseen datasets. We show that ColD Fusion outperforms RoBERTa and even previous multitask models. Specifically, when training and testing on 35 diverse datasets, ColD Fusion-based model outperforms RoBERTa by 2.33 points on average without any changes to the architecture.

arxiv情報

著者 Shachar Don-Yehiya,Elad Venezian,Colin Raffel,Noam Slonim,Yoav Katz,Leshem Choshen
発行日 2023-09-13 15:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG パーマリンク