OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models

要約

敏感、著作権、または有毒な含有量を記憶する広範なコーパスリスクを訓練された大規模な言語モデル(LLM)。
これに対処するために、モデルユーティリティを維持しながらターゲットを絞ったデータを削除する堅牢な未獲得のフレームワークであるObliviateを提案します。
フレームワークは、ターゲットトークンの抽出、ビルディング保持セット、およびマスキング、蒸留、世界の事実の3つのコンポーネントで構成されるカスタマイズされた損失関数を使用して、構造化されたプロセスに従います。
低ランクアダプター(LORA)を使用すると、学習の質の低い品質を損なうことなく効率が保証されます。
包括的なメトリックスイートを使用して、ハリーポッターシリーズ、WMDP、豆腐など、複数のデータセットで実験を実施します。
結果は、メンバーシップの推論攻撃に抵抗し、保持されたデータへの影響を最小限に抑え、多様なシナリオ全体で堅牢性を維持する有効性を示しています。

要約(オリジナル)

Large language models (LLMs) trained over extensive corpora risk memorizing sensitive, copyrighted, or toxic content. To address this, we propose OBLIVIATE, a robust unlearning framework that removes targeted data while preserving model utility. The framework follows a structured process: extracting target tokens, building retain sets, and fine-tuning with a tailored loss function comprising three components — masking, distillation, and world fact. Using low-rank adapters (LoRA), it ensures efficiency without compromising unlearning quality. We conduct experiments on multiple datasets, including the Harry Potter series, WMDP, and TOFU, using a comprehensive suite of metrics: forget quality (new document-level memorization score), model utility, and fluency. Results demonstrate its effectiveness in resisting membership inference attacks, minimizing the impact on retained data, and maintaining robustness across diverse scenarios.

arxiv情報

著者 Xiaoyu Xu,Minxin Du,Qingqing Ye,Haibo Hu
発行日 2025-05-07 13:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク