Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning

要約

パラメータ全体を使用して、さまざまな下流タスクで大規模な事前トレーニング済み言語モデルを微調整するのは、法外にコストがかかります。
したがって、凍結された事前トレーニング済みモデルを使用していくつかのタスク固有のパラメーターのみを最適化する、パラメーター効率の高い微調整が注目を集めています。
この作業では、Transformer レイヤーに挿入された連続プレフィックス ベクトル (つまり、擬似トークン) のみを最適化するプレフィックス チューニングに焦点を当てます。
学習された構文とセマンティクスの表現がレイヤーごとに大きく異なるという観察に基づいて、適応プレフィックスは固定プレフィックスよりも各レイヤーに合わせてさらに調整され、より効果的かつ効率的な微調整が可能になると主張します。
したがって、ゲートメカニズムを使用して、きめの細かいトークンレベルと粗い層レベルの両方の観点からプレフィックスを調整する適応型プレフィックスチューニング(APT)を提案します。
SuperGLUE および NER データセットの実験では、APT の有効性が示されています。
さらに、ゲートをプローブとして使用して、変数プレフィックスの効率と有効性を検証します。

要約(オリジナル)

Fine-tuning large pre-trained language models on various downstream tasks with whole parameters is prohibitively expensive. Hence, Parameter-efficient fine-tuning has attracted attention that only optimizes a few task-specific parameters with the frozen pre-trained model. In this work, we focus on prefix tuning, which only optimizes continuous prefix vectors (i.e. pseudo tokens) inserted into Transformer layers. Based on the observation that the learned syntax and semantics representation varies a lot at different layers, we argue that the adaptive prefix will be further tailored to each layer than the fixed one, enabling the fine-tuning more effective and efficient. Thus, we propose Adaptive Prefix Tuning (APT) to adjust the prefix in terms of both fine-grained token level and coarse-grained layer level with a gate mechanism. Experiments on the SuperGLUE and NER datasets show the effectiveness of APT. In addition, taking the gate as a probing, we validate the efficiency and effectiveness of the variable prefix.

arxiv情報

著者 Zhen-Ru Zhang,Chuanqi Tan,Haiyang Xu,Chengyu Wang,Jun Huang,Songfang Huang
発行日 2023-05-24 14:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク