ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale

要約

マルチタスク学習 (MTL) は、特に言語モデル (LM) を使用する場合に、かなりの実用的な利点を示しています。
これは通常、共同最適化手順に基づいて $n$ タスクを学習することによって実現されますが、AdapterFusion などの一部の方法では、問題を 2 つの段階に分割します。 (i) タスク学習。タスクに固有の知識がパラメータのセット内にカプセル化されます (
(例: アダプター)、および (ii) 転送。このすでに学習した知識がターゲット タスクに活用されます。
この関心事の分離により、多くの利点が得られます (再利用性の促進など)。
ただし、現在の 2 段階 MTL では、かなりの数の追加パラメータが導入されています。
私たちは、転移学習用のソース アダプターの出力表現を線形にスケーリングすることの有用性を活用することで、この問題に対処します。
シンプルでパラメーター効率の高い 2 段階 MTL メソッドである ScaLearn を紹介します。これは、ターゲット タスクへの効果的な転送を可能にするスケーリング パラメーターの最小限のセットを学習することで、ソース タスクの知識を活用します。
3 つのベンチマーク (GLUE、SuperGLUE、HumSet) と 2 つのエンコーダ LM での実験では、ScaLearn が少数の転送パラメータ (AdapterFusion の ~ $0.35$%) で強力なベースラインを常に上回るパフォーマンスを示しています。
注目すべきことに、パラメータをさらに削減しても ScaLearn が強力な能力を維持し、ターゲット タスクあたりわずか 8 ドルの転送パラメータで競争力のある結果を達成していることがわかります。
したがって、私たちが提案したアプローチは、より効率的なタスク転送を約束する単純なスケーリングの力を実証しています。

要約(オリジナル)

Multi-task learning (MTL) has shown considerable practical benefits, particularly when using language models (LMs). While this is commonly achieved by learning $n$ tasks under a joint optimization procedure, some methods, such as AdapterFusion, divide the problem into two stages: (i) task learning, where knowledge specific to a task is encapsulated within sets of parameters (e.g., adapters), and (ii) transfer, where this already learned knowledge is leveraged for a target task. This separation of concerns provides numerous benefits (e.g., promoting reusability). However, current two-stage MTL introduces a substantial number of additional parameters. We address this issue by leveraging the usefulness of linearly scaling the output representations of source adapters for transfer learning. We introduce ScaLearn, a simple and highly parameter-efficient two-stage MTL method that capitalizes on the knowledge of the source tasks by learning a minimal set of scaling parameters that enable effective transfer to a target task. Our experiments on three benchmarks (GLUE, SuperGLUE, and HumSet) and two encoder LMs show that ScaLearn consistently outperforms strong baselines with a small number of transfer parameters (~ $0.35$% of those of AdapterFusion). Remarkably, we observe that ScaLearn maintains its strong abilities even when further reducing parameters, achieving competitive results with only $8$ transfer parameters per target task. Our proposed approach thus demonstrates the power of simple scaling as a promise for more efficient task transfer.

arxiv情報

著者 Markus Frohmann,Carolin Holtermann,Shahed Masoudian,Anne Lauscher,Navid Rekabsaz
発行日 2024-05-17 14:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク