Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach

要約

Machine Ulderingは、訓練されたモデルから指定されたデータを体系的に削除しようとし、トレーニング中にデータが遭遇したことがないかのように状態を効果的に達成します。
学習精度(UA)やメンバーシップ推論攻撃(MIA)などのメトリックは、成績のないパフォーマンスを評価するためのベースラインを提供しますが、忘却の完全性と信頼性を評価することはできません。
これは、グラウンドトゥルースラベルが不確実性の定量化の範囲内で潜在的な候補者のままであり、真の忘却の評価にギャップを残しているためです。
この論文では、既存の未学習メトリックの重要な制限を特定し、コンフォーマル予測に触発された強化された評価メトリックを提案します。
私たちのメトリックは、グラウンドトゥルースラベルが予測セットから除外される程度を効果的にキャプチャできます。
さらに、多くの既存のマシンの未学習方法では、新しいメトリックで評価されたときに満足のいく忘却パフォーマンスを達成しないことがわかります。
これに対処するために、CarliniとWagnerの敵対的な攻撃損失に関するコンフォーマル予測の洞察を統合する未学習の枠組みを提案します。
画像分類タスクに関する広範な実験は、強化されたメトリックが学習の有効性に関するより深い洞察を提供し、未学習のフレームワークにより、学習方法の忘却の質が大幅に向上することを示しています。

要約(オリジナル)

Machine unlearning seeks to systematically remove specified data from a trained model, effectively achieving a state as though the data had never been encountered during training. While metrics such as Unlearning Accuracy (UA) and Membership Inference Attack (MIA) provide a baseline for assessing unlearning performance, they fall short of evaluating the completeness and reliability of forgetting. This is because the ground truth labels remain potential candidates within the scope of uncertainty quantification, leaving gaps in the evaluation of true forgetting. In this paper, we identify critical limitations in existing unlearning metrics and propose enhanced evaluation metrics inspired by conformal prediction. Our metrics can effectively capture the extent to which ground truth labels are excluded from the prediction set. Furthermore, we observe that many existing machine unlearning methods do not achieve satisfactory forgetting performance when evaluated with our new metrics. To address this, we propose an unlearning framework that integrates conformal prediction insights into Carlini & Wagner adversarial attack loss. Extensive experiments on the image classification task demonstrate that our enhanced metrics offer deeper insights into unlearning effectiveness, and that our unlearning framework significantly improves the forgetting quality of unlearning methods.

arxiv情報

著者 Yingdan Shi,Ren Wang
発行日 2025-01-31 18:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク