要約
プロンプトチューニングは、大規模なパラメーターを再トレーニングすることなく、事前トレーニングされた言語モデルを微調整するための有望な方法です。
代わりに、入力テキストにソフト プロンプトを付加します。これにより、プロンプト トークンの埋め込みを学習するだけで、下流のタスクを適切に適応させることができます。
それにもかかわらず、既存の方法には依然として 2 つの課題があります。(i) 精度と効率のバランスをとるのが難しい。
一般に、ソフト プロンプトを長くすると (短くすると)、精度が向上します (低下します) が、トレーニング時間は長くなります (短くなります)。
(ii) さまざまな下流タスクに適応すると、パフォーマンスが一貫しない可能性があります。
これは同じ埋め込みスペースに起因しますが、下流タスクの異なる要件を担当します。
これらの問題を解決するために、我々は多空間投影とプロンプト融合による効率的なプロンプトチューニング法(EPT)を提案します。
具体的には、特定のソフト プロンプトをより短いプロンプトと 2 つの低ランク行列に分解し、トレーニング時間を大幅に短縮します。
また、低ランクの行列と短いプロンプトを追加の知識源として利用して、元の短いプロンプトのセマンティクスを強化することによって、精度も向上します。
さらに、ソフト プロンプトを複数のサブスペースに投影してパフォーマンスの一貫性を向上させ、ゲーティング ネットワークを通じてさまざまなスペースの組み合わせの重みを適応的に学習します。
13 の自然言語処理の下流タスクに関する実験では、私たちの手法が 11 の比較手法を大幅かつ一貫して上回っており、相対的な改善率が最大 12.9% で、トレーニング時間が 14% 減少していることが示されています。
要約(オリジナル)
Prompt tuning is a promising method to fine-tune a pre-trained language model without retraining its large-scale parameters. Instead, it attaches a soft prompt to the input text, whereby downstream tasks can be well adapted by merely learning the embeddings of prompt tokens. Nevertheless, existing methods still suffer from two challenges: (i) they are hard to balance accuracy and efficiency. A longer (shorter) soft prompt generally leads to a better(worse) accuracy but at the cost of more (less) training time. (ii)The performance may not be consistent when adapting to different downstream tasks. We attribute it to the same embedding space but responsible for different requirements of downstream tasks. To address these issues, we propose an Efficient Prompt Tuning method (EPT) by multi-space projection and prompt fusion. Specifically, it decomposes a given soft prompt into a shorter prompt and two low-rank matrices, significantly reducing the training time. Accuracy is also enhanced by leveraging low-rank matrices and the short prompt as additional knowledge sources to enrich the semantics of the original short prompt. In addition, we project the soft prompt into multiple subspaces to improve the performance consistency, and then adaptively learn the combination weights of different spaces through a gating network. Experiments on 13 natural language processing downstream tasks show that our method significantly and consistently outperforms 11 comparison methods with the relative percentage of improvements up to 12.9%, and training time decreased by 14%.
arxiv情報
著者 | Pengxiang Lan,Enneng Yang,Yuting Liu,Guibing Guo,Linying Jiang,Jianzhe Zhao,Xingwei Wang |
発行日 | 2024-07-01 14:27:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google