Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond

要約

LLMの非学習手法は最近、データ規制に準拠し、望ましくないデータモデルの影響を削除することによりLLMの安全性と倫理的懸念に対処するために導入されました。
ただし、最先端の未学習方法は、重大な脆弱性に直面しています。それらは、再学習攻撃として知られる少数の忘れられたデータポイントから削除された情報を「再学習」しやすいです。
この論文では、このような攻撃に対して未学習モデルを堅牢にする方法を体系的に調査します。
敵対的な攻撃を防御するために設計された敵対的な訓練と同様に、統一された堅牢な最適化フレームワークを通じて、堅牢な不明確な最小化(SAM)との関係を初めて確立します。
SAMの分析は、滑らかさの最適化が再学習攻撃の緩和に極めて重要な役割を果たすことを明らかにしています。
したがって、不正な堅牢性を高めるために、多様な平滑化戦略をさらに探求します。
WMDPやMuseを含むベンチマークデータセットでの広範な実験は、SAMやその他の滑らかさの最適化が、攻撃の再学習に対するLLMの抵抗を一貫して改善することを示しています。
特に、Smoothness-Enhanced Ulrearningは、(入力レベルの)脱却攻撃に対する防御にも役立ち、LLMの堅牢性における提案の影響を拡大します。
コードはhttps://github.com/optml-group/unlearn-smoothで入手できます。

要約(オリジナル)

The LLM unlearning technique has recently been introduced to comply with data regulations and address the safety and ethical concerns of LLMs by removing the undesired data-model influence. However, state-of-the-art unlearning methods face a critical vulnerability: they are susceptible to “relearning” the removed information from a small number of forget data points, known as relearning attacks. In this paper, we systematically investigate how to make unlearned models robust against such attacks. For the first time, we establish a connection between robust unlearning and sharpness-aware minimization (SAM) through a unified robust optimization framework, in an analogy to adversarial training designed to defend against adversarial attacks. Our analysis for SAM reveals that smoothness optimization plays a pivotal role in mitigating relearning attacks. Thus, we further explore diverse smoothing strategies to enhance unlearning robustness. Extensive experiments on benchmark datasets, including WMDP and MUSE, demonstrate that SAM and other smoothness optimization approaches consistently improve the resistance of LLM unlearning to relearning attacks. Notably, smoothness-enhanced unlearning also helps defend against (input-level) jailbreaking attacks, broadening our proposal’s impact in robustifying LLM unlearning. Codes are available at https://github.com/OPTML-Group/Unlearn-Smooth.

arxiv情報

著者 Chongyu Fan,Jinghan Jia,Yihua Zhang,Anil Ramakrishna,Mingyi Hong,Sijia Liu
発行日 2025-03-25 12:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク