要約
大規模な言語モデル(LLMS)は、大規模なテキストコーパスを事前に移動することにより、強力な推論と暗記能力を実証しています。
ただし、これはプライバシーと著作権違反のリスクをもたらし、ゼロから再訓練せずに敏感なデータを削除する効率的なマシンを解除する方法の必要性を強調しています。
Gradient Ascent(GA)は一般に、不要なコンテンツを生成する可能性を減らすことで学習するために使用されますが、不安定な最適化と壊滅的な再訓練の知識の忘却につながります。
GAと低ランクの適応を組み合わせることで、計算コストと生成パフォーマンスの間のトレードオフが不十分であることがわかります。
これらの課題に対処するために、LLMSの堅牢で効率的な学習を可能にする新しいフレームワークである、低ランクの知識Unlarning(LOKU)を提案します。
まず、逆ヒンジの損失を導入します。これは、次に最も可能性の高いトークンの確率を高めることで流encyさを維持しながら、不要なトークンを抑制します。
第二に、相対的なフィッシャー情報に加重された低ランク近似を介してLORAアダプターのデータ適応初期化を開発し、それにより、ターゲットの知識を削除するために重要なパラメーターに更新を集中させることができます。
GPT-NEOモデルを使用したトレーニングデータ抽出チャレンジデータセットと、PHI-1.5BおよびLLAMA2-7Bモデルを使用した豆腐ベンチマークを使用した実験は、最小限の影響で推論と生成機能を維持しながら、我々のアプローチが機密情報を効果的に削除することを示しています。
私たちの実装は、https://github.com/csm9493/efficient-llm-unlearningにあります。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, this poses risk of privacy and copyright violations, highlighting the need for efficient machine unlearning methods that remove sensitive data without retraining from scratch. While Gradient Ascent (GA) is commonly used to unlearn by reducing the likelihood of generating unwanted content, it leads to unstable optimization and catastrophic forgetting of retrained knowledge. We find that combining GA with low-rank adaptation results in poor trade-offs between computational cost and generative performance. To address these challenges, we propose Low-rank Knowledge Unlearning (LoKU), a novel framework that enables robust and efficient unlearning for LLMs. First, we introduce Inverted Hinge Loss, which suppresses unwanted tokens while maintaining fluency by boosting the probability of the next most likely token. Second, we develop a data-adaptive initialization for LoRA adapters via low-rank approximation weighted with relative Fisher information, thereby focusing updates on parameters critical for removing targeted knowledge. Experiments on the Training Data Extraction Challenge dataset using GPT-Neo models as well as on the TOFU benchmark with Phi-1.5B and Llama2-7B models demonstrate that our approach effectively removes sensitive information while maintaining reasoning and generative capabilities with minimal impact. Our implementation can be found in https://github.com/csm9493/efficient-llm-unlearning.
arxiv情報
著者 | Sungmin Cha,Sungjun Cho,Dasol Hwang,Moontae Lee |
発行日 | 2025-04-01 12:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google