要約
少数のパラメーターのみを更新するアダプター チューニングは、事前トレーニングされた言語モデルを下流のタスクに合わせて微調整するための主流の方法になりました。
ただし、数回の学習では標準以下の結果が得られることがよくあります。
特定のタスクに合わせて調整された構成レイヤーを使用して事前トレーニングされたアダプターを組み立てる AdaptorFusion は、可能なソリューションですが、トレーニング可能なパラメーターと導入コストが大幅に増加します。
それにもかかわらず、私たちの予備調査では、単一のアダプターでも数ショット学習でアダプターフュージョンを上回るパフォーマンスが得られることが明らかになり、モデル融合を通じて事前トレーニングされたアダプターを単一のモデルに効率的に組み込む \textbf{\texttt{事前トレーニングされたアダプターのマージ}} (MerA) を提案するよう促されました。
。
2 つの PLM での広範な実験により、MerA が単一アダプターと AdaptorFusion の両方と比較して大幅な改善を達成することが実証されました。
MerA の能力をさらに強化するために、事前トレーニング タスクの同じトラックからアダプターをマージする、’\textit{same-track}’ 設定と呼ばれる、シンプルかつ効果的な手法も導入しました。
‘\textit{same-track}’ 設定を実装すると、完全な微調整とアダプター調整の両方のパフォーマンスを大幅に上回り、さらに顕著な向上が見られます (例: MRPC で 3.5\%、5.0\)。
MNLIの%。
要約(オリジナル)
Adapter tuning, which updates only a few parameters, has become a mainstream method for fine-tuning pretrained language models to downstream tasks. However, it often yields subpar results in few-shot learning. AdapterFusion, which assembles pretrained adapters using composition layers tailored to specific tasks, is a possible solution but significantly increases trainable parameters and deployment costs. Despite this, our preliminary study reveals that even single adapters can outperform Adapterfusion in few-shot learning, urging us to propose \textbf{\texttt{Merging Pretrained Adapters}} (MerA) that efficiently incorporates pretrained adapters to a single model through model fusion. Extensive experiments on two PLMs demonstrate that MerA achieves substantial improvements compared to both single adapters and AdapterFusion. To further enhance the capacity of MerA, we also introduce a simple yet effective technique, referred to as the ‘\textit{same-track}’ setting, that merges adapters from the same track of pretraining tasks. With the implementation of the ‘\textit{same-track}’ setting, we observe even more impressive gains, surpassing the performance of both full fine-tuning and adapter tuning by a substantial margin, e.g., 3.5\% in MRPC and 5.0\% in MNLI.
arxiv情報
著者 | Shwai He,Run-Ze Fan,Liang Ding,Li Shen,Tianyi Zhou,Dacheng Tao |
発行日 | 2023-08-30 12:10:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google