Task-Specific Skill Localization in Fine-tuned Language Models

要約

事前に学習された言語モデルは、数ショットの設定を含め、多様な自然言語処理タスクを解くために微調整することができる。このようにファインチューニングを行うことで、モデルはタスク固有の「スキル」を素早く習得することができるが、これらの新しく習得したスキルが巨大なモデルのどこに存在するかについての研究は限られている。本稿では、この問題に対してスキルローカライゼーションという用語を導入し、解決策を提案する。下流のタスクと、そのタスクでファインチューニングされたモデルが与えられたとき、簡単な最適化を使って、モデルの性能の(95$以上)%を担うパラメータの非常に小さな部分集合(モデルパラメータの$sim0.01$%)を特定する。パラメータ効率的なファインチューニングに関する最近の研究を彷彿とさせるが、ここでの新規な点は以下の通りである:(i)サブセットに対してさらなる再学習は必要ない(例えば宝くじの場合とは異なる)。(ii)分布内予測の適合性(40$~90$%の誤差削減)と分布外予測(OOD)の品質に関して、バニラ微調整よりも顕著な改善が見られる。複数のタスクで訓練されたモデルでは、異なるタスクに対応する疎な領域がほぼ不連続であり、それらの重なり(それが起こった場合)がタスクの類似性の代理となる、より強力なスキル局在化の概念が観察される。実験は、接ぎ木による局所化が、ある種の継続的学習を支援することを示唆している。

要約(オリジナル)

Pre-trained language models can be fine-tuned to solve diverse NLP tasks, including in few-shot settings. Thus fine-tuning allows the model to quickly pick up task-specific “skills,” but there has been limited study of where these newly-learnt skills reside inside the massive model. This paper introduces the term skill localization for this problem and proposes a solution. Given the downstream task and a model fine-tuned on that task, a simple optimization is used to identify a very small subset of parameters ($\sim0.01$% of model parameters) responsible for ($>95$%) of the model’s performance, in the sense that grafting the fine-tuned values for just this tiny subset onto the pre-trained model gives performance almost as well as the fine-tuned model. While reminiscent of recent works on parameter-efficient fine-tuning, the novel aspects here are that: (i) No further re-training is needed on the subset (unlike, say, with lottery tickets). (ii) Notable improvements are seen over vanilla fine-tuning with respect to calibration of predictions in-distribution ($40$-$90$% error reduction) as well as the quality of predictions out-of-distribution (OOD). In models trained on multiple tasks, a stronger notion of skill localization is observed, where the sparse regions corresponding to different tasks are almost disjoint, and their overlap (when it happens) is a proxy for task similarity. Experiments suggest that localization via grafting can assist certain forms of continual learning.

arxiv情報

著者 Abhishek Panigrahi,Nikunj Saunshi,Haoyu Zhao,Sanjeev Arora
発行日 2023-07-02 01:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク