要約
CHATGPTなどの指導に従う大規模な言語モデル(LLM)は、日常のユーザーの間で広く人気があります。
ただし、これらのモデルは、ユーザーにプライベートな機密情報を不注意に開示し、モデルから選択的な情報を削除するためのマシンの学習技術の必要性を強調しています。
以前の作業は、インスタンスレベルでトレーニングデータの小さなランダムなサブセットを忘れることに焦点を当てていますが、実際のシナリオはユーザーデータ全体を削除する必要があることがよくあると主張します。
この研究では、残りのモデル機能を維持しながら、ターゲットエンティティに関連するすべての知識を消去することを目的としたエンティティレベルの未学習を調査します。
これに対処するために、モデルの初期パラメーターからワッサースタインの距離を利用して、より効果的で微調整された学習を実現する最適なトランスポートベースの未学習方法であるオプトアウトを紹介します。
また、エンティティレベルの未学習を評価するために設計された最初のエンティティレベルの未学習データセット(Evelude)を提示します。
私たちの経験的結果は、オプトアウトが既存の方法を上回り、完全な再試行を必要とせずにユーザーデータ削除要求に対応できる安全で適応可能なLLMの新しい基準を確立することを示しています。
要約(オリジナル)
Instruction-following large language models (LLMs), such as ChatGPT, have become widely popular among everyday users. However, these models inadvertently disclose private, sensitive information to their users, underscoring the need for machine unlearning techniques to remove selective information from the models. While prior work has focused on forgetting small, random subsets of training data at the instance-level, we argue that real-world scenarios often require the removal of an entire user data, which may require a more careful maneuver. In this study, we explore entity-level unlearning, which aims to erase all knowledge related to a target entity while preserving the remaining model capabilities. To address this, we introduce Opt-Out, an optimal transport-based unlearning method that utilizes the Wasserstein distance from the model’s initial parameters to achieve more effective and fine-grained unlearning. We also present the first Entity-Level Unlearning Dataset (ELUDe) designed to evaluate entity-level unlearning. Our empirical results demonstrate that Opt-Out surpasses existing methods, establishing a new standard for secure and adaptable LLMs that can accommodate user data removal requests without the need for full retraining.
arxiv情報
著者 | Minseok Choi,Daniel Rim,Dohyun Lee,Jaegul Choo |
発行日 | 2025-06-06 14:08:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google