要約
プロンプトチューニングは、プロンプトの埋め込みを変更することにより、計算オーバーヘッドを最小限に抑えて、事前トレーニングされた言語モデルを新しいタスクに適応させる効率的な方法です。
この研究では、プロンプト チューニングで頻繁に観察される埋め込み崩壊現象がモデルの最終パフォーマンスにとってどれほど重要であるかを調査します。
この問題に対処するために、埋め込み事前分布を設計し、それらを統合されたソフトおよびディープ プロンプト チューニング手法の事後分布と比較しました。
私たちの発見は、事前分布が調整された埋め込みの位置に強く影響し、モデルが完全に新しい領域を含む活性化空間のさまざまな部分からの埋め込みを効果的に処理できることを示唆しています。
最終的なプロンプト チューニングの機能は限られているため、制御可能なプロンプト チューニング事後関数は、思考連鎖 (COT) 蒸留などのタスクの良い開始点として機能する可能性があると仮説を立てています。
私たちの実験では、生成された軌道がモデルの活性化空間内で局在化していないことも示しています。
ただし、離れたタスク (NLP や算術など) には個別のアクティベーション クラスターが存在しますが、NLP タスク間のアクティベーション (質問応答や MLM など) は同じクラスター内にあります。
これらの観察は、大規模な言語モデルの一般化能力に対する単一のアクティベーション クラスターの重要性について疑問を引き起こします。
要約(オリジナル)
Prompt-Tuning is an efficient method for adapting pre-trained language models to new tasks with minimal computational overhead by modifying prompt embeddings. In this work, we investigate how crucial the phenomenon of embedding collapse, frequently observed in Prompt-Tuning, is for the final performance of the model. To address this question, we designed embedding priors and compared them with posteriors of the converged Soft and Deep Prompt-Tuning methods. Our findings suggest that priors strongly affect the position of the tuned embeddings, and models can effectively work with embeddings from different parts of activation spaces, including completely new regions. As the final Prompt-Tuning capabilities are limited, we hypothesize that controllable Prompt-Tuning posteriors may serve as a good starting point for tasks such as chain-of-thought (COT) distillation. Our experiments also show that generated trajectories are not localized in the activation space of the models. However, there are distinct clusters of activations for distant tasks (e.g., NLP and arithmetic), while activations between NLP tasks (e.g., Question-Answering and MLM) lie in the same cluster. These observations raise questions about the importance of a single activation cluster for the generalization abilities of large language models.
arxiv情報
著者 | Sergey Sedov,Sumanth Bharadwaj Hachalli Karanam,Venu Gopal Kadamba |
発行日 | 2024-12-24 18:18:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google