Layered Unlearning for Adversarial Relearning

要約

私たちの目標は、微調整、アラインメント、学習の解除、言語モデルの動作と表現を修正するなど、トレーニング後の方法を理解することです。
私たちは、これらの修正の脆弱な性質に特に興味があり、迅速なエンジニアリングや再学習を通じて簡単にバイパスできます。
最近の結果は、トレーニング後に特定の応答パターンを抑制する浅いコンテキスト依存「回路」を誘導することを示唆しています。
これは、トレーニング後の脆性についての1つの説明かもしれません。
この仮説をテストするために、データのサブセットが増えているために明確な抑制メカニズムを作成する未学習アルゴリズムの階層化されていないアルゴリズム(Lu)を設計します。
最初の$ i $ foldsを解き放つことにより、残りの$ k -i $を$ i $ thで保持しながら$ k $ステージの$ i $を保持することにより、luはデータのサブセットで再学習する能力を制限して、完全なデータセットを回復します。
合成モデルと大手言語モデル(LLM)実験の組み合わせを介してLuを評価します。
Luは、いくつかの異なる未学習方法の敵対的な再学習に対する堅牢性を改善することがわかります。
私たちの結果は、最先端のマシンの学習に貢献し、トレーニング後の更新の効果についての洞察を提供します。

要約(オリジナル)

Our goal is to understand how post-training methods, such as fine-tuning, alignment, and unlearning, modify language model behavior and representations. We are particularly interested in the brittle nature of these modifications that makes them easy to bypass through prompt engineering or relearning. Recent results suggest that post-training induces shallow context-dependent “circuits” that suppress specific response patterns. This could be one explanation for the brittleness of post-training. To test this hypothesis, we design an unlearning algorithm, Layered Unlearning (LU), that creates distinct inhibitory mechanisms for a growing subset of the data. By unlearning the first $i$ folds while retaining the remaining $k – i$ at the $i$th of $k$ stages, LU limits the ability of relearning on a subset of data to recover the full dataset. We evaluate LU through a combination of synthetic and large language model (LLM) experiments. We find that LU improves robustness to adversarial relearning for several different unlearning methods. Our results contribute to the state-of-the-art of machine unlearning and provide insight into the effect of post-training updates.

arxiv情報

著者 Timothy Qian,Vinith Suriyakumar,Ashia Wilson,Dylan Hadfield-Menell
発行日 2025-05-14 15:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク