Do Unlearning Methods Remove Information from Language Model Weights?

要約

サイバーセキュリティ攻撃を実行し、生物兵器を作成し、人間を操作する方法に関する大規模な言語モデルの知識は、誤用のリスクをもたらします。
以前の研究では、この知識を学習する方法を提案しています。
歴史的に、学習技術がモデルの重みから情報を削除しているのか、それともアクセスを難しくしているのかは不明でした。
これらの2つの目的を解くために、モデルの重みから情報の削除をテストするための敵対的評価方法を提案します。
アクセス可能な事実から推測できないのと同じ分布。
アクセス可能な事実に微調整することで、事前脱出中に学習した情報の現在の未学習方法に適用された場合、ユダヤリング前の精度の88%を回復し、モデルの重みから情報を削除する際のこれらの方法の制限を明らかにすることができることを示します。
また、我々の結果は、追加の微調整段階で学んだ情報の堅牢性を測定する学習の不明な評価が、事前脱布中に学んだ情報を学んだ評価を試みる評価と比較して、堅牢性を過大評価する可能性があることを示唆しています。

要約(オリジナル)

Large Language Models’ knowledge of how to perform cyber-security attacks, create bioweapons, and manipulate humans poses risks of misuse. Previous work has proposed methods to unlearn this knowledge. Historically, it has been unclear whether unlearning techniques are removing information from the model weights or just making it harder to access. To disentangle these two objectives, we propose an adversarial evaluation method to test for the removal of information from model weights: we give an attacker access to some facts that were supposed to be removed, and using those, the attacker tries to recover other facts from the same distribution that cannot be guessed from the accessible facts. We show that using fine-tuning on the accessible facts can recover 88% of the pre-unlearning accuracy when applied to current unlearning methods for information learned during pretraining, revealing the limitations of these methods in removing information from the model weights. Our results also suggest that unlearning evaluations that measure unlearning robustness on information learned during an additional fine-tuning phase may overestimate robustness compared to evaluations that attempt to unlearn information learned during pretraining.

arxiv情報

著者 Aghyad Deeb,Fabien Roger
発行日 2025-02-07 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク