SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation

要約

データ規制の進化に伴い、機械非学習 (MU) は、今日の AI モデルの信頼性と安全性を促進するための重要なツールとなっています。
ただし、データや重みの観点に焦点を当てた既存の MU 手法は、多くの場合、アンラーニングの精度、安定性、クロスドメインの適用性に限界があります。
これらの課題に対処するために、MU に「重み顕著性」の概念を導入し、モデルの説明における入力顕著性との類似性を示します。
この革新により、MU の注意はモデル全体ではなく特定のモデルの重みに向けられ、有効性と効率が向上します。
結果として得られる顕著性非学習 (SalUn) と呼ばれるメソッドは、「正確な」非学習 (忘却データ ポイントを削除した後、最初からモデルを再トレーニングする) とのパフォーマンス ギャップを狭めます。
私たちの知る限り、SalUn は、画像分類タスクと生成タスクの両方において、データ、クラス、または概念の忘れによる影響を効果的に消去できる、最初の原理的な MU アプローチです。
以下で強調するように、たとえば、SalUn は、高分散ランダム データ忘却において安定性の利点をもたらします (たとえば、CIFAR-10 データセットでの正確な非学習と比較して 0.2% のギャップ)。
さらに、条件付き拡散モデルによる有害な画像の生成を防ぐ点で、SalUn はほぼ 100% の非学習精度を達成し、Erased Stable Diffusion や Forget-Me-Not などの現在の最先端のベースラインを上回ります。
コードは https://github.com/OPTML-Group/Unlearn-Saliency で入手できます。
(警告: この文書には、本質的に攻撃的な可能性のあるモデル出力が含まれています。)

要約(オリジナル)

With evolving data regulations, machine unlearning (MU) has become an important tool for fostering trust and safety in today’s AI models. However, existing MU methods focusing on data and/or weight perspectives often suffer limitations in unlearning accuracy, stability, and cross-domain applicability. To address these challenges, we introduce the concept of ‘weight saliency’ for MU, drawing parallels with input saliency in model explanation. This innovation directs MU’s attention toward specific model weights rather than the entire model, improving effectiveness and efficiency. The resultant method that we call saliency unlearning (SalUn) narrows the performance gap with ‘exact’ unlearning (model retraining from scratch after removing the forgetting data points). To the best of our knowledge, SalUn is the first principled MU approach that can effectively erase the influence of forgetting data, classes, or concepts in both image classification and generation tasks. As highlighted below, For example, SalUn yields a stability advantage in high-variance random data forgetting, e.g., with a 0.2% gap compared to exact unlearning on the CIFAR-10 dataset. Moreover, in preventing conditional diffusion models from generating harmful images, SalUn achieves nearly 100% unlearning accuracy, outperforming current state-of-the-art baselines like Erased Stable Diffusion and Forget-Me-Not. Codes are available at https://github.com/OPTML-Group/Unlearn-Saliency. (WARNING: This paper contains model outputs that may be offensive in nature.)

arxiv情報

著者 Chongyu Fan,Jiancheng Liu,Yihua Zhang,Dennis Wei,Eric Wong,Sijia Liu
発行日 2024-02-19 16:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク