ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale

要約

マルチタスク学習 (MTL) は、特に事前トレーニング済み言語モデル (PLM) を使用する場合に、かなりの実用的な利点を示しています。
これは通常、共同最適化手順の下で $n$ タスクを同時に学習することで実現されますが、AdapterFusion などの最近の手法では、問題を 2 つの異なる段階に構造化しています。 (i) タスク学習。タスクに固有の知識がパラメーターのセット内にカプセル化されます (
(例: アダプター)、および (ii) 転送。このすでに学習した知識がターゲット タスクに活用されます。
この懸念事項の分離により、再利用性の促進、データ プライバシーや社会的懸念に関連するケースへの対処など、多くの利点がもたらされます。
一方で、現在の 2 段階 MTL メソッドには、相当な数の追加パラメーターを導入するコストが伴います。
この研究では、転移学習用のソース アダプターの出力表現を線形にスケーリングする利点を活用することで、この問題に対処します。
シンプルでパラメーター効率の高い 2 段階 MTL メソッドである ScaLearn を紹介します。これは、ターゲット タスクへの効果的な知識の伝達を可能にする最小限のスケーリング パラメーターのセットを学習することで、ソース タスクの知識を活用します。
3 つのベンチマーク (GLUE、SuperGLUE、HumSet) での実験では、ScaLearn が 2 段階 MTL の利点を促進することに加えて、少数の転送パラメーター (AdapterFusion の約 0.35% の約 0.35%) のみで強力なベースラインを常に上回っていることが示されています。

驚くべきことに、均一なスケーリングとレイヤー共有を通じてパラメータをさらに削減した場合でも、ScaLearn が強力な能力を維持し、ターゲット タスクごとにわずか 8 ドルの転送パラメータで同様の競争力のある結果を達成していることがわかりました。
したがって、私たちが提案したアプローチは、より効率的なタスク転送を約束する単純なスケーリングの力を実証しています。

要約(オリジナル)

Multi-task learning (MTL) has shown considerable practical benefits, particularly when using pre-trained language models (PLMs). While this is commonly achieved by simultaneously learning $n$ tasks under a joint optimization procedure, recent methods such as AdapterFusion structure the problem into two distinct stages: (i) task learning, where knowledge specific to a task is encapsulated within sets of parameters (e.g., adapters), and (ii) transfer, where this already learned knowledge is leveraged for a target task. This separation of concerns provides numerous benefits, such as promoting reusability, and addressing cases involving data privacy and societal concerns; on the flip side, current two-stage MTL methods come with the cost of introducing a substantial number of additional parameters. In this work, we address this issue by leveraging the usefulness of linearly scaling the output representations of source adapters for transfer learning. We introduce ScaLearn, a simple and highly parameter-efficient two-stage MTL method that capitalizes on the knowledge of the source tasks by learning a minimal set of scaling parameters that enable effective knowledge transfer to a target task. Our experiments on three benchmarks (GLUE, SuperGLUE, and HumSet) show that our ScaLearn, in addition to facilitating the benefits of two-stage MTL, consistently outperforms strong baselines with only a small number of transfer parameters – roughly 0.35% of those of AdapterFusion. Remarkably, we observe that ScaLearn maintains its strong abilities even when further reducing parameters through uniform scaling and layer-sharing, achieving similarly competitive results with only $8$ transfer parameters for each target task. Our proposed approach thus demonstrates the power of simple scaling as a promise for more efficient task transfer.

arxiv情報

著者 Markus Frohmann,Carolin Holtermann,Shahed Masoudian,Anne Lauscher,Navid Rekabsaz
発行日 2023-12-13 14:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク