A Kernel-Based View of Language Model Fine-Tuning

要約

タイトル:言語モデルの微調整におけるカーネルベースビュー
要約:
– 低データ設定において、事前に学習された言語モデル(LM)を微調整することで、NLPタスクを解決することが一般的になっています。
– 学習ポイントが数十個しかない場合でも、$10^8$個以上のパラメータを持つモデルの微調整が過学習を引き起こさない理論的理解は最小限です。
– 無限幅のネットワークの勾配降下ダイナミクスを研究するために起源を持つNerual Tangent Kernel(NTK)が、事前に学習されたLMの微調整を記述することができるのかどうか調査しています。
– この研究は、コンピュータビジョンタスクにおけるNTKの十分なパフォーマンスに触発されました。
– 我々は、AdamにNTKフォーマリズムを拡張し、Tensor Programsを使用して、NTKレンズが事前に学習された言語モデルの微調整アップデートを説明することができる条件を特徴づけます。
– 14のNLPタスクに関する広範な実験は、我々の理論を検証し、問いかけを通じてダウンストリームタスクをマスクされた単語予測問題として設定することが、微調整中にカーネルベースのダイナミクスを誘発することを示しました。
– 最後に、このカーネルビューを使用して、パラメータ効率的なサブスペースベースの微調整方法の成功の説明を提案します。

要約(オリジナル)

It has become standard to solve NLP tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why fine-tuning a model with $10^8$ or more parameters on a couple dozen training points does not result in overfitting. We investigate whether the Neural Tangent Kernel (NTK) – which originated as a model to study the gradient descent dynamics of infinitely wide networks with suitable random initialization – describes fine-tuning of pre-trained LMs. This study was inspired by the decent performance of NTK for computer vision tasks (Wei et al., 2022). We extend the NTK formalism to Adam and use Tensor Programs (Yang, 2020) to characterize conditions under which the NTK lens may describe fine-tuning updates to pre-trained language models. Extensive experiments on 14 NLP tasks validate our theory and show that formulating the downstream task as a masked word prediction problem through prompting often induces kernel-based dynamics during fine-tuning. Finally, we use this kernel view to propose an explanation for the success of parameter-efficient subspace-based fine-tuning methods.

arxiv情報

著者 Sadhika Malladi,Alexander Wettig,Dingli Yu,Danqi Chen,Sanjeev Arora
発行日 2023-05-03 17:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク