Distillation Robustifies Unlearning

要約

現在のLLM学習方法は堅牢ではありません。それらは、微調整のいくつかのステップで簡単に戻すことができます。
これは、不要な情報に決してさらされなかったOracleモデルを模倣する理想的な非学習トレーニング方法にも当てはまります。これは、出力ベースのFinetuningが堅牢な解除を達成するには不十分であることを示唆しています。
同様に、ランダムに初期化された学生をトレーニングして、不明確なモデルを模倣して望ましい動作を模倣し、望ましくない機能を残していることがわかります。
言い換えれば、蒸留は学習を強化します。
この洞察に基づいて、私たちは、非学習されたモデルを部分的にノイズされたコピーに蒸留するスケーラブルな方法である、非ヌーシスティルオン出力(元に戻す)を提案します。
元に戻すと、コンピューティングコストと堅牢性の間に調整可能なトレードオフが導入され、合成言語と算術タスクに関する新しいパレートフロンティアが確立されます。
その最強の設定では、コンピューティングの60〜80%しか使用しない一方で、完全なデータフィルタリングを使用して、ゼロから再登録されたモデルの堅牢性と一致します。
また、よりリアルな大量破壊プロキシ(WMDP)ベンチマークを解き放つことを元に戻すことを示しています。
蒸留は実際には広く使用されているため、事前に学習していないステップを組み込むと、堅牢な機能除去への便利なパスが提供されます。

要約(オリジナル)

Current LLM unlearning methods are not robust: they can be reverted easily with a few steps of finetuning. This is true even for the idealized unlearning method of training to imitate an oracle model that was never exposed to unwanted information, suggesting that output-based finetuning is insufficient to achieve robust unlearning. In a similar vein, we find that training a randomly initialized student to imitate an unlearned model transfers desired behaviors while leaving undesired capabilities behind. In other words, distillation robustifies unlearning. Building on this insight, we propose Unlearn-Noise-Distill-on-Outputs (UNDO), a scalable method that distills an unlearned model into a partially noised copy of itself. UNDO introduces a tunable tradeoff between compute cost and robustness, establishing a new Pareto frontier on synthetic language and arithmetic tasks. At its strongest setting, UNDO matches the robustness of a model retrained from scratch with perfect data filtering while using only 60-80% of the compute and requiring only 0.01% of the pretraining data to be labeled. We also show that UNDO robustifies unlearning on the more realistic Weapons of Mass Destruction Proxy (WMDP) benchmark. Since distillation is widely used in practice, incorporating an unlearning step beforehand offers a convenient path to robust capability removal.

arxiv情報

著者 Bruce W. Lee,Addie Foote,Alex Infanger,Leni Shor,Harish Kamath,Jacob Goldman-Wetzler,Bryce Woodworth,Alex Cloud,Alexander Matt Turner
発行日 2025-06-06 17:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク