Deep Unlearning: Fast and Efficient Training-free Approach to Controlled Forgetting

要約

機械学習は、要求に応じてユーザーデータを削除するという産業界に対する規制要求の高まりと、プライバシーに対する意識の高まりに大きく後押しされ、顕著かつ挑戦的な分野として浮上してきた。既存のアプローチでは、モデルをゼロから再学習するか、削除要求のたびにいくつかの微調整ステップを使用するが、多くの場合、計算機リソースの制限や元の学習データへのアクセス制限に制約される。本研究では、学習済みモデルからクラス全体またはクラス群を戦略的に削除するように設計された、新しいクラス学習解除アルゴリズムを紹介する。そのために、本アルゴリズムはまず、保持すべきクラスと学習解除すべきクラスのサンプルの特徴空間または活性化空間をそれぞれ表す、保持空間と忘却空間を推定する。これらの空間を得るために、我々は特異値分解に基づく新しい手法を提案する。次に、これらの空間間で共有される情報を計算し、それを忘却空間から除去することで、非学習のためのクラス識別特徴空間を分離する。最後に、モデルの重みをクラス識別特徴空間の直交方向に投影し、非学習モデルを得る。我々は、Vision Transformerを用いたImageNetにおいて、学習していないクラスサンプルの精度を1%未満に維持しながら、元のモデルと比較して、保持精度をわずか$sim$1.5%低下させるだけで、我々のアルゴリズムの有効性を実証する。さらに、我々のアルゴリズムは、メンバーシップ推論攻撃(Membership Inference Attacks)を受けたとき、他のベースラインと比較して、様々な画像分類データセットとネットワークアーキテクチャで平均7.8%の改善を示しながら、$sim$6倍の計算効率で一貫して良い性能を示す。

要約(オリジナル)

Machine unlearning has emerged as a prominent and challenging area of interest, driven in large part by the rising regulatory demands for industries to delete user data upon request and the heightened awareness of privacy. Existing approaches either retrain models from scratch or use several finetuning steps for every deletion request, often constrained by computational resource limitations and restricted access to the original training data. In this work, we introduce a novel class unlearning algorithm designed to strategically eliminate an entire class or a group of classes from the learned model. To that end, our algorithm first estimates the Retain Space and the Forget Space, representing the feature or activation spaces for samples from classes to be retained and unlearned, respectively. To obtain these spaces, we propose a novel singular value decomposition-based technique that requires layer wise collection of network activations from a few forward passes through the network. We then compute the shared information between these spaces and remove it from the forget space to isolate class-discriminatory feature space for unlearning. Finally, we project the model weights in the orthogonal direction of the class-discriminatory space to obtain the unlearned model. We demonstrate our algorithm’s efficacy on ImageNet using a Vision Transformer with only $\sim$1.5% drop in retain accuracy compared to the original model while maintaining under 1% accuracy on the unlearned class samples. Further, our algorithm consistently performs well when subject to Membership Inference Attacks showing 7.8% improvement on average across a variety of image classification datasets and network architectures, as compared to other baselines while being $\sim$6x more computationally efficient.

arxiv情報

著者 Sangamesh Kodge,Gobinda Saha,Kaushik Roy
発行日 2023-12-01 18:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク