PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning

要約

パラメータ効率の良い微調整 (PEFT) は、事前トレーニングされた言語モデルをさまざまなタスクに効率的に適応させるための効果的な方法として登場しました。
最近、パフォーマンスの向上を達成するために、1 つまたは複数のタスクから下流のターゲット タスクに知識を転送することへの関心が高まっています。
ただし、現在のアプローチは通常、個々のタスクでアダプターをトレーニングするか、ソース タスクから共有知識を抽出するかのいずれかで、タスク固有の知識やソース タスクとターゲット タスク間の相関関係を十分に活用できません。
これらの制限を克服するために、マルチタスク転移学習に基づいた新しいパラメーター効率の良い微調整フレームワークである PEMT を提案します。
PEMT は、専門家混合 (MoE) フレームワークを拡張して、ソース タスクでトレーニングされたアダプターの重み付けされた組み合わせとして移転可能な知識を取得します。
これらの重みは、タスク記述プロンプト ベクトルを使用してターゲットと各ソース タスク間の相関を測定するゲート ユニットによって決定されます。
タスク固有の知識を最大限に活用するために、ゲート ユニットのスパース性を向上させるタスク スパース性損失も提案します。
私たちは 17 のデータセットにわたって幅広いタスクの実験を実施します。
実験結果は、当社の PEMT が、完全な微調整、最先端の PEFT およびさまざまなタスクに関する知識伝達方法に対して安定した改善をもたらすことを示しています。
結果は、複数のタスクにわたって知識と相関機能を十分に活用できる私たちの方法の有効性を強調しています。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) has emerged as an effective method for adapting pre-trained language models to various tasks efficiently. Recently, there has been a growing interest in transferring knowledge from one or multiple tasks to the downstream target task to achieve performance improvements. However, current approaches typically either train adapters on individual tasks or distill shared knowledge from source tasks, failing to fully exploit task-specific knowledge and the correlation between source and target tasks. To overcome these limitations, we propose PEMT, a novel parameter-efficient fine-tuning framework based on multi-task transfer learning. PEMT extends the mixture-of-experts (MoE) framework to capture the transferable knowledge as a weighted combination of adapters trained on source tasks. These weights are determined by a gated unit, measuring the correlation between the target and each source task using task description prompt vectors. To fully exploit the task-specific knowledge, we also propose the Task Sparsity Loss to improve the sparsity of the gated unit. We conduct experiments on a broad range of tasks over 17 datasets. The experimental results demonstrate our PEMT yields stable improvements over full fine-tuning, and state-of-the-art PEFT and knowledge transferring methods on various tasks. The results highlight the effectiveness of our method which is capable of sufficiently exploiting the knowledge and correlation features across multiple tasks.

arxiv情報

著者 Zhisheng Lin,Han Fu,Chenghao Liu,Zhuo Li,Jianling Sun
発行日 2024-06-06 15:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク