Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models

要約

事前トレーニング済み言語モデル (PLM) は過度にパラメーター化されており、大幅な冗長性があることが知られており、PLM の自由度が低いことを示しています。
この観察に動機づけられて、この論文では、PLM の再パラメータ化と微調整の問題を、新しい視点、つまり固有のタスク固有の部分空間の発見から研究します。
具体的には、特定のタスクの微調整プロセスのダイナミクスを利用することで、パラメーター最適化の軌跡を学習して、その固有のタスク固有の部分空間を明らかにします。
重要な発見は、PLM は少数の自由パラメーターを使用して部分空間で効果的に微調整できることです。
さらに、部分空間の微調整中にいくつかの外れ値の次元が出現することも観察されます。
これらのディメンションを無効にすると、モデルのパフォーマンスが大幅に低下します。
これは、これらの次元が、タスク固有の知識を下流のタスクに誘導するために重要であることを示唆しています。

要約(オリジナル)

Pre-trained language models (PLMs) are known to be overly parameterized and have significant redundancy, indicating a small degree of freedom of the PLMs. Motivated by the observation, in this paper, we study the problem of re-parameterizing and fine-tuning PLMs from a new perspective: Discovery of intrinsic task-specific subspace. Specifically, by exploiting the dynamics of the fine-tuning process for a given task, the parameter optimization trajectory is learned to uncover its intrinsic task-specific subspace. A key finding is that PLMs can be effectively fine-tuned in the subspace with a small number of free parameters. Beyond, we observe some outlier dimensions emerging during fine-tuning in the subspace. Disabling these dimensions degrades the model performance significantly. This suggests that these dimensions are crucial to induce task-specific knowledge to downstream tasks.

arxiv情報

著者 Zhong Zhang,Bang Liu,Junming Shao
発行日 2023-08-01 08:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク