要約
特に低データ設定では、事前にトレーニングされた言語モデル (LM) を微調整して NLP タスクを解決することが標準になっています。
経験的な成功についての理論的な理解はほとんどありません。たとえば、数十のトレーニング ポイントで $10^8$ 以上のパラメーターを使用してモデルを微調整してもオーバーフィッティングにならない理由などです。
ニューラル タンジェント カーネル (NTK) – 適切なランダム初期化を伴う無限に広いネットワークの勾配降下ダイナミクスを研究するためのモデルとして考案された – が、事前にトレーニングされた LM の微調整を記述するかどうかを調査します。
この研究は、コンピューター ビジョン タスクに対する NTK の適切なパフォーマンスに触発されました (Wei et al., 2022)。
NTK 形式を Adam に拡張し、Tensor プログラム (Yang、2020 年) を使用して、NTK レンズが事前トレーニング済み言語モデルの微調整更新を記述する条件を特徴付けます。
14 の NLP タスクに関する広範な実験により、私たちの理論が検証され、プロンプトを介してダウンストリーム タスクをマスクされた単語予測問題として定式化すると、微調整中にカーネルベースのダイナミクスがしばしば誘発されることが示されます。
最後に、このカーネル ビューを使用して、パラメーター効率の高い部分空間ベースの微調整方法の成功の説明を提案します。
要約(オリジナル)
It has become standard to solve NLP tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why fine-tuning a model with $10^8$ or more parameters on a couple dozen training points does not result in overfitting. We investigate whether the Neural Tangent Kernel (NTK) – which originated as a model to study the gradient descent dynamics of infinitely wide networks with suitable random initialization – describes fine-tuning of pre-trained LMs. This study was inspired by the decent performance of NTK for computer vision tasks (Wei et al., 2022). We extend the NTK formalism to Adam and use Tensor Programs (Yang, 2020) to characterize conditions under which the NTK lens may describe fine-tuning updates to pre-trained language models. Extensive experiments on 14 NLP tasks validate our theory and show that formulating the downstream task as a masked word prediction problem through prompting often induces kernel-based dynamics during fine-tuning. Finally, we use this kernel view to propose an explanation for the success of parameter-efficient subspace-based fine-tuning methods.
arxiv情報
著者 | Sadhika Malladi,Alexander Wettig,Dingli Yu,Danqi Chen,Sanjeev Arora |
発行日 | 2023-02-17 14:43:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google