DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs

要約

大規模な言語モデル(LLM)は最近、言語処理タスクに革命をもたらしましたが、倫理的および法的問題ももたらしました。
LLMは、トレーニングデータに存在する潜在的にプライベートまたは著作権で保護された情報を記憶する傾向があり、その後、推論時にエンドユーザーに配信される可能性があります。
これが起こると、素朴な解決策は、望ましくないデータを除外した後、モデルをゼロから再編成することです。
これにより、ターゲットデータが忘れられていることが保証されていますが、LLMSにとっても非常に高価です。
概説の未解決は、望ましくない結果を防ぐために訓練されたモデル自体の事後修正で構成されているため、より効率的な代替手段を提供しますが、経験的証拠のみに依存しているため、忘れられた保証がありません。
この作業では、保持されるデータのゼロからの再トレーニングよりも大幅に低いコストで正式な忘却保証を提供する、新しいLLM解読フレームワークであるDP2Unlearningを提示します。
DP2Unlearningには、{\ epsilon}違いのプライバシー(DP)を使用して保護されたテキストデータでLLMSのトレーニングが含まれます。
私たちの実験は、DP2Unlearningが保持されたデータ(ゴールドスタンダードの正確な未学習)のゼロからのLLM再トレーニングと比較して、同様のモデルのパフォーマンス後のパフォーマンスを達成していることを示していますが、約半分の未解決のコストです。
さらに、合理的な計算コストで、モデルの有効性を維持し、ターゲット情報を効果的に忘れて、ターゲット情報を効果的に忘れることの両方で、おおよその学習方法よりも優れています。

要約(オリジナル)

Large language models (LLMs) have recently revolutionized language processing tasks but have also brought ethical and legal issues. LLMs have a tendency to memorize potentially private or copyrighted information present in the training data, which might then be delivered to end users at inference time. When this happens, a naive solution is to retrain the model from scratch after excluding the undesired data. Although this guarantees that the target data have been forgotten, it is also prohibitively expensive for LLMs. Approximate unlearning offers a more efficient alternative, as it consists of ex post modifications of the trained model itself to prevent undesirable results, but it lacks forgetting guarantees because it relies solely on empirical evidence. In this work, we present DP2Unlearning, a novel LLM unlearning framework that offers formal forgetting guarantees at a significantly lower cost than retraining from scratch on the data to be retained. DP2Unlearning involves training LLMs on textual data protected using {\epsilon}-differential privacy (DP), which later enables efficient unlearning with the guarantees against disclosure associated with the chosen {\epsilon}. Our experiments demonstrate that DP2Unlearning achieves similar model performance post-unlearning, compared to an LLM retraining from scratch on retained data — the gold standard exact unlearning — but at approximately half the unlearning cost. In addition, with a reasonable computational cost, it outperforms approximate unlearning methods at both preserving the utility of the model post-unlearning and effectively forgetting the targeted information.

arxiv情報

著者 Tamim Al Mahmud,Najeeb Jebreel,Josep Domingo-Ferrer,David Sanchez
発行日 2025-04-18 16:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク