Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks

要約

大規模な事前トレーニング済みモデルを微調整することは、安全に展開できるモデルの開発を含め、タスク固有の機械学習システムと汎用の機械学習システムの両方を開発するための事実上の戦略となっています。
その重要性は明らかであるにもかかわらず、微調整が事前トレーニング中にモデルによって学習された基礎的な機能をどのように変更するのかを説明する研究は最小限しかありませんでした。微調整はまったく新しい機能を生み出すのでしょうか、それとも既存の機能を調整するだけなのでしょうか?
私たちは、機械的な解釈ツール (ネットワークの枝刈りやプローブなど) を使用して、モデルの基礎的な機能がどのように変化しているかを理解できる、合成された制御された設定で経験的にこの質問に取り組みます。
これらの設定での微調整の効果について広範な分析を実行し、次のことを示します。(i) 微調整によって基礎となるモデルの機能が変更されることはほとんどありません。
(ii) 「ラッパー」と呼ばれる最小限の変換は、通常、基礎となるモデルの機能に基づいて学習され、変更されたかのような錯覚を生み出します。
(iii) そのような隠れた機能が関連するタスクをさらに微調整すると、サンプル効率の高い機能の「復活」がもたらされます。つまり、モデルはわずか数回の勾配ステップの後にこれらの機能の再利用を開始します。
これは、実務者が、たとえば表面的に無関係な下流タスクでモデルを微調整するだけで、モデルの安全ラッパーを意図せずに削除してしまう可能性があることを示しています。
さらに、より現実的な設定での主張を裏付けるために、TinyStories データセットでトレーニングされた言語モデルの分析も実行します。

要約(オリジナル)

Fine-tuning large pre-trained models has become the de facto strategy for developing both task-specific and general-purpose machine learning systems, including developing models that are safe to deploy. Despite its clear importance, there has been minimal work that explains how fine-tuning alters the underlying capabilities learned by a model during pretraining: does fine-tuning yield entirely novel capabilities or does it just modulate existing ones? We address this question empirically in synthetic, controlled settings where we can use mechanistic interpretability tools (e.g., network pruning and probing) to understand how the model’s underlying capabilities are changing. We perform an extensive analysis of the effects of fine-tuning in these settings, and show that: (i) fine-tuning rarely alters the underlying model capabilities; (ii) a minimal transformation, which we call a ‘wrapper’, is typically learned on top of the underlying model capabilities, creating the illusion that they have been modified; and (iii) further fine-tuning on a task where such hidden capabilities are relevant leads to sample-efficient ‘revival’ of the capability, i.e., the model begins reusing these capability after only a few gradient steps. This indicates that practitioners can unintentionally remove a model’s safety wrapper merely by fine-tuning it on a, e.g., superficially unrelated, downstream task. We additionally perform analysis on language models trained on the TinyStories dataset to support our claims in a more realistic setup.

arxiv情報

著者 Samyak Jain,Robert Kirk,Ekdeep Singh Lubana,Robert P. Dick,Hidenori Tanaka,Edward Grefenstette,Tim Rocktäschel,David Scott Krueger
発行日 2023-11-21 18:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク