要約
敏感、著作権、または有毒な含有量を記憶する広範なコーパスリスクを訓練された大規模な言語モデル(LLM)。
これに対処するために、モデルユーティリティを維持しながらターゲットを絞ったデータを削除する堅牢な未獲得のフレームワークであるObliviateを提案します。
フレームワークは、ターゲットトークンの抽出、ビルディング保持セット、およびマスキング、蒸留、世界の事実の3つのコンポーネントで構成されるカスタマイズされた損失関数を使用して、構造化されたプロセスに従います。
低ランクアダプター(LORA)を使用すると、学習の質の低い品質を損なうことなく効率が保証されます。
包括的なメトリックスイートを使用して、ハリーポッターシリーズ、WMDP、豆腐など、複数のデータセットで実験を実施します。
結果は、メンバーシップの推論攻撃に抵抗し、保持されたデータへの影響を最小限に抑え、多様なシナリオ全体で堅牢性を維持する有効性を示しています。
要約(オリジナル)
Large language models (LLMs) trained over extensive corpora risk memorizing sensitive, copyrighted, or toxic content. To address this, we propose OBLIVIATE, a robust unlearning framework that removes targeted data while preserving model utility. The framework follows a structured process: extracting target tokens, building retain sets, and fine-tuning with a tailored loss function comprising three components — masking, distillation, and world fact. Using low-rank adapters (LoRA), it ensures efficiency without compromising unlearning quality. We conduct experiments on multiple datasets, including the Harry Potter series, WMDP, and TOFU, using a comprehensive suite of metrics: forget quality (new document-level memorization score), model utility, and fluency. Results demonstrate its effectiveness in resisting membership inference attacks, minimizing the impact on retained data, and maintaining robustness across diverse scenarios.
arxiv情報
著者 | Xiaoyu Xu,Minxin Du,Qingqing Ye,Haibo Hu |
発行日 | 2025-05-07 13:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google