要約
プロンプト、コンテキスト内学習、ソフト プロンプト (プロンプト チューニングとも呼ばれる)、プレフィックス チューニングなどのコンテキスト ベースの微調整方法は、完全な微調整のパフォーマンスとほぼ同じパフォーマンスを実現できることが多いため、人気が高まっています。
パラメータの一部。
経験的には成功しているにもかかわらず、これらの手法がモデルの内部計算や表現力の制限にどのような影響を与えるかについては、理論的にはほとんど理解されていません。
連続埋め込み空間は離散トークン空間よりも表現力が高いにもかかわらず、学習可能なパラメーターの数が同じであっても、ソフト プロンプトとプレフィックス調整は完全な微調整よりも表現力が劣る可能性があることを示します。
具体的には、コンテキストベースの微調整では、コンテンツ全体にわたる相対的な注目パターンを変更することはできず、注目レイヤーの出力を固定方向に偏らせることしかできません。
これは、プロンプト、コンテキスト内学習、ソフト プロンプト、プレフィックス チューニングなどの手法は、事前トレーニング済みモデルに存在するスキルを効果的に引き出すことはできるものの、新しい注意パターンを必要とする新しいタスクを学習できない可能性があることを示唆しています。
要約(オリジナル)
Context-based fine-tuning methods, including prompting, in-context learning, soft prompting (also known as prompt tuning), and prefix-tuning, have gained popularity due to their ability to often match the performance of full fine-tuning with a fraction of the parameters. Despite their empirical successes, there is little theoretical understanding of how these techniques influence the internal computation of the model and their expressiveness limitations. We show that despite the continuous embedding space being more expressive than the discrete token space, soft-prompting and prefix-tuning are potentially less expressive than full fine-tuning, even with the same number of learnable parameters. Concretely, context-based fine-tuning cannot change the relative attention pattern over the content and can only bias the outputs of an attention layer in a fixed direction. This suggests that while techniques like prompting, in-context learning, soft prompting, and prefix-tuning can effectively elicit skills present in the pretrained model, they may not be able to learn novel tasks that require new attention patterns.
arxiv情報
著者 | Aleksandar Petrov,Philip H. S. Torr,Adel Bibi |
発行日 | 2024-04-09 10:30:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google