Revisiting Machine Unlearning with Dimensional Alignment

要約

データプライバシー規制への準拠に焦点を当てた新たな研究トピックである機械アンラーニングにより、トレーニングされたモデルが特定のデータから学習した情報を削除できるようになります。
既存の手法の多くは、誤った監視を意図的に挿入することでこの問題に間接的に対処していますが、決定境界と特徴空間が劇的かつ予測不可能に変更され、トレーニングの不安定性や望ましくない副作用につながる可能性があります。
このタスクに根本的にアプローチするために、最初に元のモデルと再トレーニングされたモデルの間の潜在特徴空間の変化を分析し、トレーニングに関与していないサンプルの特徴表現がトレーニングで以前に確認されたサンプルの特徴多様体と密接に一致していることを観察します。
これらの発見に基づいて、我々は機械のアンラーニングのための新しい評価メトリクス、造語次元アライメントを導入します。これは、忘却セットサンプルと保持セットサンプルの固有空間間のアライメントを測定します。
このメトリクスを正則化損失として使用して、堅牢で安定した非学習フレームワークを構築します。これは、自己蒸留損失と交互トレーニング スキームを統合することでさらに強化されます。
私たちのフレームワークは、忘却セットから情報を効果的に削除し、保持セットから知識を保存します。
最後に、機械の非学習に関して確立された評価指標の重大な欠陥を特定し、機械の非学習の基本的な目標をより正確に反映する新しい評価ツールを紹介します。

要約(オリジナル)

Machine unlearning, an emerging research topic focusing on compliance with data privacy regulations, enables trained models to remove the information learned from specific data. While many existing methods indirectly address this issue by intentionally injecting incorrect supervisions, they can drastically and unpredictably alter the decision boundaries and feature spaces, leading to training instability and undesired side effects. To fundamentally approach this task, we first analyze the changes in latent feature spaces between original and retrained models, and observe that the feature representations of samples not involved in training are closely aligned with the feature manifolds of previously seen samples in training. Based on these findings, we introduce a novel evaluation metric for machine unlearning, coined dimensional alignment, which measures the alignment between the eigenspaces of the forget and retain set samples. We employ this metric as a regularizer loss to build a robust and stable unlearning framework, which is further enhanced by integrating a self-distillation loss and an alternating training scheme. Our framework effectively eliminates information from the forget set and preserves knowledge from the retain set. Lastly, we identify critical flaws in established evaluation metrics for machine unlearning, and introduce new evaluation tools that more accurately reflect the fundamental goals of machine unlearning.

arxiv情報

著者 Seonguk Seo,Dongwan Kim,Bohyung Han
発行日 2024-12-19 16:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク