要約
プロンプトチューニング(PT)により、入力トークンエンメッドに加えられる少量のソフト仮想トークンを最適化することにより、事前に訓練された大型言語モデル(PLM)を下流タスクに適応させることができます。
最近、分解されたプロンプトチューニング(Dept)は、ソフトプロンプトをより短いソフトプロンプトと低ランクマトリックスのペアに分解することにより、優れた適応機能を実証しました。
低ランクマトリックスのペアの積は、それらを相殺するために入力トークン埋め込みに追加されます。
さらに、Deptは、より短いソフトプロンプトのため、PTと比較してより速い推論を実現します。
ただし、このホワイトペーパーでは、Deptの位置ベースのトークン埋め込みオフセットが、多様なモデル入力全体に一般化する能力を制限し、多くのトークン埋め込みにわたって共有された埋め込みオフセットが最適化されることがわかります。
これらの問題に取り組むために、短いソフトプロンプトと浅いトークン共有フィードフォワードニューラルネットワークで構成される適応分解プロンプトチューニング(ADEPT)を導入します。
Adeptは、トークン共有フィードフォワードニューラルネットワークを利用して、各トークンの埋め込みオフセットを学習し、モデル入力とトークン埋め込みオフセットのより良い最適化によって異なる適応埋め込みオフセットを可能にします。
これにより、ADEPTは、バニラPTおよびそのバリアントと比較して、より多くの推論時間や追加のトレーニング可能なパラメーターを必要とせずに優れた適応パフォーマンスを実現できます。
23の自然言語処理タスクと4つの異なるスケールの4つの典型的なPLMにわたる包括的な実験では、Adeptは他の主要なパラメーター効率の高い微調整方法を一貫して上回り、特定のシナリオで完全な微調整を上回ります。
また、Adeptに対する理論的分析も提供します。
コードはhttps://github.com/hungerpway/adeptで入手できます。
要約(オリジナル)
Prompt Tuning (PT) enables the adaptation of Pre-trained Large Language Models (PLMs) to downstream tasks by optimizing a small amount of soft virtual tokens, which are prepended to the input token embeddings. Recently, Decomposed Prompt Tuning (DePT) has demonstrated superior adaptation capabilities by decomposing the soft prompt into a shorter soft prompt and a pair of low-rank matrices. The product of the pair of low-rank matrices is added to the input token embeddings to offset them. Additionally, DePT achieves faster inference compared to PT due to the shorter soft prompt. However, in this paper, we find that the position-based token embedding offsets of DePT restrict its ability to generalize across diverse model inputs, and that the shared embedding offsets across many token embeddings result in sub-optimization. To tackle these issues, we introduce Adaptive Decomposed Prompt Tuning (ADePT), which is composed of a short soft prompt and a shallow token-shared feed-forward neural network. ADePT utilizes the token-shared feed-forward neural network to learn the embedding offsets for each token, enabling adaptive embedding offsets that vary according to the model input and better optimization of token embedding offsets. This enables ADePT to achieve superior adaptation performance without requiring more inference time or additional trainable parameters compared to vanilla PT and its variants. In comprehensive experiments across 23 natural language processing tasks and 4 typical PLMs of different scales, ADePT consistently surpasses the other leading parameter-efficient fine-tuning methods, and even outperforms the full fine-tuning in certain scenarios. We also provide a theoretical analysis towards ADePT. Code is available at https://github.com/HungerPWAY/ADePT.
arxiv情報
著者 | Pengwei Tang,Xiaolin Hu,Yong Liu |
発行日 | 2025-03-04 15:03:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google