要約
ソフト プロンプト チューニングは、パラメータ効率の高い微調整方法として広く研究されています。
ただし、これには明らかな欠点があります。ダウンストリームのパフォーマンスを保証するには、入力シーケンスに多くのソフト トークンを挿入する必要があります。
その結果、大規模言語モデリング (LLM) 時代には、ソフト プロンプト チューニングは低ランク適応 (LoRA) ほど考慮されなくなりました。
この研究では、4 つのソフト トークンのみを必要とする新しいプロンプト チューニング方法である命令認識プロンプト チューニング (IAPT) を提案します。
まず、パラメーター効率の高いソフト プロンプト ジェネレーターを各 Transformer レイヤーにインストールして、入力命令ごとに特異なソフト プロンプトを生成します。
生成されたソフト プロンプトは、入力命令の意味論的な要約として見ることができ、出力生成を効果的にガイドできます。
第 2 に、ソフト プロンプト ジェネレーターは、セルフ アテンション プーリング操作、2 つの線形投影、およびアクティベーション関数で構成されるボトルネック アーキテクチャを備えたモジュールです。
パイロット実験では、異なる Transformer レイヤーのプロンプト ジェネレーターには異なるアクティベーション関数が必要であることが示されています。
したがって、有理関数の助けを借りて、プロンプトジェネレータの特異な活性化関数を自動的に学習することを提案します。
私たちはさまざまなタスクについて実験を行いました。その実験結果は、(a) 私たちの IAPT メソッドが、同等の調整可能なパラメーターを使用して最近のベースラインを上回るパフォーマンスを発揮できることを示しています。
(b) 私たちの IAPT 手法は、単一バックボーンのマルチテナント設定では LoRA よりも効率的です。
要約(オリジナル)
Soft prompt tuning is a widely studied parameter-efficient fine-tuning method. However, it has a clear drawback: many soft tokens must be inserted into the input sequences to guarantee downstream performance. As a result, soft prompt tuning is less considered than Low-rank adaptation (LoRA) in the large language modeling (LLM) era. In this work, we propose a novel prompt tuning method, Instruction-Aware Prompt Tuning (IAPT), that requires only four soft tokens. First, we install a parameter-efficient soft prompt generator at each Transformer layer to generate idiosyncratic soft prompts for each input instruction. The generated soft prompts can be seen as a semantic summary of the input instructions and can effectively guide the output generation. Second, the soft prompt generators are modules with a bottleneck architecture consisting of a self-attention pooling operation, two linear projections, and an activation function. Pilot experiments show that prompt generators at different Transformer layers require different activation functions. Thus, we propose to learn the idiosyncratic activation functions for prompt generators automatically with the help of rational functions. We have conducted experiments on various tasks, and the experimental results demonstrate that (a) our IAPT method can outperform the recent baselines with comparable tunable parameters. (b) Our IAPT method is more efficient than LoRA under the single-backbone multi-tenant setting.
arxiv情報
著者 | Wei Zhu,Aaron Xuxiang Tian,Congrui Yin,Yuan Ni,Xiaoling Wang,Guotong Xie |
発行日 | 2024-05-28 14:11:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google