A Kernel-Based View of Language Model Fine-Tuning

要約

特にデータ量が少ない設定では、事前トレーニング済み言語モデル (LM) を微調整することで NLP タスクを解決することが標準になっています。
経験的な成功については、理論的には最小限の理解しかありません。たとえば、数十のトレーニング ポイントで $10^8$ 以上のパラメーターを使用してモデルを微調整しても過剰適合が生じない理由などです。
適切なランダム初期化を伴う無限幅ネットワークの勾配降下ダイナミクスを研究するモデルとして誕生したニューラル タンジェント カーネル (NTK) が、事前トレーニングされた LM の微調整を記述するかどうかを調査します。
この研究は、コンピュータ ビジョン タスクにおける NTK の適切なパフォーマンスに触発されました (Wei et al.、2022)。
私たちは NTK 形式主義を Adam に拡張し、Tensor Programs (Yang, 2020) を使用して、NTK レンズが事前トレーニングされた言語モデルへの微調整更新を記述する条件を特徴付けます。
14 の NLP タスクに関する広範な実験により、私たちの理論が検証され、プロンプトによるマスクされた単語予測問題として下流タスクを定式化すると、微調整中にカーネルベースのダイナミクスが誘発されることが多いことが示されました。
最後に、このカーネル ビューを使用して、パラメーター効率の高い部分空間ベースの微調整手法の成功の説明を提案します。

要約(オリジナル)

It has become standard to solve NLP tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why fine-tuning a model with $10^8$ or more parameters on a couple dozen training points does not result in overfitting. We investigate whether the Neural Tangent Kernel (NTK) – which originated as a model to study the gradient descent dynamics of infinitely wide networks with suitable random initialization – describes fine-tuning of pre-trained LMs. This study was inspired by the decent performance of NTK for computer vision tasks (Wei et al., 2022). We extend the NTK formalism to Adam and use Tensor Programs (Yang, 2020) to characterize conditions under which the NTK lens may describe fine-tuning updates to pre-trained language models. Extensive experiments on 14 NLP tasks validate our theory and show that formulating the downstream task as a masked word prediction problem through prompting often induces kernel-based dynamics during fine-tuning. Finally, we use this kernel view to propose an explanation for the success of parameter-efficient subspace-based fine-tuning methods.

arxiv情報

著者 Sadhika Malladi,Alexander Wettig,Dingli Yu,Danqi Chen,Sanjeev Arora
発行日 2023-06-06 09:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク