Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models

要約

LLM は多くの分野で成功を収めていますが、トレーニング コーパスには問題のあるコンテンツが依然として存在します。
LLM の学習解除は、その影響を軽減し、望ましくない行動を回避することを目的としています。
ただし、既存のアンラーニング手法は依然として敵対的なクエリに対して脆弱であり、手動で設計された攻撃クエリの後に未学習の知識が再び表面化します。
未学習モデルの脆弱性を積極的に評価するレッドチームの取り組みの一環として、私たちは、これらのモデルを攻撃して堅牢性を評価するための動的で自動化されたフレームワークである Dynamic Unlearning Attack (DUA) を設計します。
敵対的なサフィックスを最適化して、さまざまなシナリオで未学習の知識を再導入します。
未学習のモデルのパラメーターを明らかにしなくても、$55.2\%$ の質問で未学習の知識を回復できることがわかりました。
この脆弱性に対応して、私たちは、未学習プロセスの堅牢性を効果的に強化する普遍的なフレームワークである Latent Adversarial Unlearning (LAU) を提案します。
未学習プロセスを最小-最大最適化問題として定式化し、次の 2 つの段階を通じて解決します。攻撃段階では、摂動ベクトルがトレーニングされ、LLM の潜在空間に追加されて、未学習の知識が回復されます。防御段階では、以前にトレーニングされています。
摂動ベクトルは、未学習モデルの堅牢性を高めるために使用されます。
LAU フレームワークを使用すると、AdvGA と AdvNPO という 2 つの強力なアンラーニング メソッドが得られます。
私たちは、複数の非学習ベンチマークとさまざまなモデルにわたって広範な実験を実施し、非学習の有効性を $53.5\%$ 以上向上させ、隣接する知識の削減は $11.6\%$ 未満に過ぎず、モデルの全体的な影響にはほとんど影響を与えないことを実証しました。
能力。

要約(オリジナル)

LLM have achieved success in many fields but still troubled by problematic content in the training corpora. LLM unlearning aims at reducing their influence and avoid undesirable behaviours. However, existing unlearning methods remain vulnerable to adversarial queries and the unlearned knowledge resurfaces after the manually designed attack queries. As part of a red-team effort to proactively assess the vulnerabilities of unlearned models, we design Dynamic Unlearning Attack (DUA), a dynamic and automated framework to attack these models and evaluate their robustness. It optimizes adversarial suffixes to reintroduce the unlearned knowledge in various scenarios. We find that unlearned knowledge can be recovered in $55.2\%$ of the questions, even without revealing the unlearned model’s parameters. In response to this vulnerability, we propose Latent Adversarial Unlearning (LAU), a universal framework that effectively enhances the robustness of the unlearned process. It formulates the unlearning process as a min-max optimization problem and resolves it through two stages: an attack stage, where perturbation vectors are trained and added to the latent space of LLMs to recover the unlearned knowledge, and a defense stage, where previously trained perturbation vectors are used to enhance unlearned model’s robustness. With our LAU framework, we obtain two robust unlearning methods, AdvGA and AdvNPO. We conduct extensive experiments across multiple unlearning benchmarks and various models, and demonstrate that they improve the unlearning effectiveness by over $53.5\%$, cause only less than a $11.6\%$ reduction in neighboring knowledge, and have almost no impact on the model’s general capabilities.

arxiv情報

著者 Hongbang Yuan,Zhuoran Jin,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao
発行日 2024-08-20 09:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク