要約
プロンプト チューニング (PT) では、少量のトレーニング可能なソフト (連続) プロンプト ベクトルが言語モデル (LM) の入力に付加され、パラメーター効率の良いファイン チューニング (PEFT) のさまざまなタスクとモデルにわたって有望な結果が示されています。
PT は、トレーニング可能なパラメーターが少なくても競争力のあるパフォーマンスを維持し、モデル サイズが拡大してもパラメーターを大幅にスケールアップしないため、他の PEFT アプローチとは異なります。
ただし、PT では追加のソフト プロンプト トークンが導入され、入力シーケンスが長くなり、Transformer の 2 次複雑さによりトレーニングと推論の時間とメモリ使用量に大きな影響を与えます。
特に、毎日の大量のクエリに直面する大規模言語モデル (LLM) については懸念されます。
この問題に対処するために、我々は分解プロンプト チューニング (DePT) を提案します。これは、ソフト プロンプトをより短いソフト プロンプトと、2 つの異なる学習率で最適化される低ランク行列のペアに分解します。
これにより、DePT は、トレーニング可能なパラメーター サイズを変更することなく、バニラ PT およびそのバリアントと比較してメモリと時間のコストを 20% 以上節約しながら、より優れたパフォーマンスを達成できます。
23 の自然言語処理 (NLP) タスクとビジョン言語 (VL) タスクに関する広範な実験を通じて、DePT が、一部のシナリオでの完全な微調整ベースラインを含む最先端の PEFT アプローチよりも優れたパフォーマンスを発揮することを実証しました。
さらに、モデルのサイズが大きくなるにつれて DEPT の効率が向上することを経験的に示しています。
私たちのさらなる研究により、DePT が少数ショット学習設定でパラメータ効率の高い転移学習とシームレスに統合され、さまざまなモデル アーキテクチャとサイズへの適応性が強調されていることが明らかになりました。
要約(オリジナル)
Prompt tuning (PT), where a small amount of trainable soft (continuous) prompt vectors is affixed to the input of language models (LM), has shown promising results across various tasks and models for parameter-efficient fine-tuning (PEFT). PT stands out from other PEFT approaches because it maintains competitive performance with fewer trainable parameters and does not drastically scale up its parameters as the model size expands. However, PT introduces additional soft prompt tokens, leading to longer input sequences, which significantly impacts training and inference time and memory usage due to the Transformer’s quadratic complexity. Particularly concerning for Large Language Models (LLMs) that face heavy daily querying. To address this issue, we propose Decomposed Prompt Tuning (DePT), which decomposes the soft prompt into a shorter soft prompt and a pair of low-rank matrices that are then optimised with two different learning rates. This allows DePT to achieve better performance while saving over 20% memory and time costs compared to vanilla PT and its variants, without changing trainable parameter sizes. Through extensive experiments on 23 natural language processing (NLP) and vision-language (VL) tasks, we demonstrate that DePT outperforms state-of-the-art PEFT approaches, including the full fine-tuning baseline in some scenarios. Additionally, we empirically show that DEPT grows more efficient as the model size increases. Our further study reveals that DePT integrates seamlessly with parameter-efficient transfer learning in the few-shot learning setting and highlights its adaptability to various model architectures and sizes.
arxiv情報
著者 | Zhengxiang Shi,Aldo Lipani |
発行日 | 2023-10-12 17:25:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google