要約
言語モデル(LM)から効率的に知識を引き出すには、プロンプトチューニングが非常に有効であることが実証されている。しかし、特にLMが小さい場合、プロンプトチューニングはファインチューニングに遅れをとっているのが現状である。P-tuning v2 (Liu et al., 2021b)では、事前学習済みモデルの各層に対して連続プロンプトを追加することで、finetuningと同等とした。しかし、すべてのインスタンスに対して、その不一致にかかわらず、固定されたソフトプロンプトを前置することには疑問が残る。特に、挿入されるプロンプトの位置、長さ、タスクの違いによるインスタンスの多様化に対するプロンプトの表現が、プロンプトチューニングの性能に影響を与える可能性がある。このギャップを埋めるために、我々は動的プロンプト(DP)を提案する:プロンプトの位置、長さ、プロンプトの表現はすべて、異なるタスクやインスタンスに関して動的に最適化することができる。SuperGlueベンチマークを用いた包括的な実験を行い、我々の仮説を検証し、大幅な改善を実証する。また、動的プロンプト戦略をサポートするための統一的なフレームワークを導出した。特に、インスタンス依存の誘導を学習するために、単純な学習ネットワークとGumble- Softmaxを使用する。実験の結果、単純なインスタンスレベルの位置認識ソフトプロンプトは、5つのデータセットにおいて平均6ポイントまで分類精度を向上させ、微調整によりその差を縮めることができることが示された。さらに、フルデータ、少数ショット、マルチタスクの各環境下で、その普遍的な有用性を証明した。これらを組み合わせることで、DPの力をさらに発揮させ、ファインチューニングとの差を縮めることができる。
要約(オリジナル)
It has been demonstrated that prompt tuning is highly effective in efficiently eliciting knowledge from language models (LMs). However, the prompt tuning still lags behind fine-tuning, especially when the LMs are small. P-tuning v2 (Liu et al., 2021b) makes it comparable with finetuning by adding continuous prompts for every layer of the pre-trained model. However, prepending fixed soft prompts for all instances, regardless of their discrepancy, is doubtful. In particular, the inserted prompt position, length, and the representations of prompts for diversified instances through different tasks could all affect the prompt tuning performance. To fill this gap, we propose dynamic prompting (DP): the position, length, and prompt representation can all be dynamically optimized with respect to different tasks and instances. We conduct comprehensive experiments on the SuperGlue benchmark to validate our hypothesis and demonstrate substantial improvements. We also derive a unified framework for supporting our dynamic prompting strategy. In particular, we use a simple learning network and Gumble- Softmax for learning instance-dependent guidance. Experimental results show that simple instance-level position-aware soft prompts can improve the classification accuracy of up to 6 points on average on five datasets, reducing its gap with fine-tuning. Besides, we also prove its universal usefulness under full-data, few-shot, and multitask regimes. Combining them together can even further unleash the power of DP, narrowing the distance between finetuning.
arxiv情報
著者 | Xianjun Yang,Wei Cheng,Xujiang Zhao,Linda Petzold,Haifeng Chen |
発行日 | 2023-03-06 06:04:46+00:00 |
arxivサイト | arxiv_id(pdf) |