Attribute-to-Delete: Machine Unlearning via Datamodel Matching

要約

機械のアンラーニング、つまり事前トレーニングされた機械学習モデルに対するトレーニング データの小さな「忘れセット」の影響を効率的に除去することは、最近大きな研究の関心を集めています。
しかし、このような関心にもかかわらず、最近の研究では、既存の機械の非学習技術が非凸設定での徹底的な評価に耐えられないことが示されています。
この研究では、このような困難な設定でも強力な経験的パフォーマンスを発揮する新しい機械学習解除手法を紹介します。
私たちの出発点は、アンラーニングの目標は、忘却セット以外のすべてで再トレーニングされたモデルの出力と統計的に区別できないモデルを作成することであるという観点です。
この観点は、当然ながら、未学習の問題からデータ帰属の問題への還元を示唆しており、その目的は、モデルの出力に対するトレーニング セットの変更の影響を予測することです。
このような動機から、私たちはデータモデル マッチング (DMM) と呼ぶ次のメタ アルゴリズムを提案します。トレーニングされたモデルが与えられた場合、(a) データ アトリビューションを使用して、モデルが忘れられたもの以外のすべてで再トレーニングされた場合の出力を予測します。
設定点。
次に、(b) これらの予測された出力に一致するように事前トレーニングされたモデルを微調整します。
単純な凸型設定で、このアプローチがさまざまな反復的非学習アルゴリズムよりも優れていることが証明される方法を示します。
経験的に、既存の評価と KL 発散に基づく新しい指標の組み合わせを使用して、凸でない設定でも、DMM が既存のアルゴリズムと比較して強力な非学習パフォーマンスを達成することを示します。
さらに、DMM の利点は、データ アトリビューションの将来の進歩がより優れた非学習アルゴリズムに直接変換され、将来の非学習の進歩に向けた明確な方向性を示すという意味で、DMM がメタ アルゴリズムであることです。

要約(オリジナル)

Machine unlearning — efficiently removing the effect of a small ‘forget set’ of training data on a pre-trained machine learning model — has recently attracted significant research interest. Despite this interest, however, recent work shows that existing machine unlearning techniques do not hold up to thorough evaluation in non-convex settings. In this work, we introduce a new machine unlearning technique that exhibits strong empirical performance even in such challenging settings. Our starting point is the perspective that the goal of unlearning is to produce a model whose outputs are statistically indistinguishable from those of a model re-trained on all but the forget set. This perspective naturally suggests a reduction from the unlearning problem to that of data attribution, where the goal is to predict the effect of changing the training set on a model’s outputs. Thus motivated, we propose the following meta-algorithm, which we call Datamodel Matching (DMM): given a trained model, we (a) use data attribution to predict the output of the model if it were re-trained on all but the forget set points; then (b) fine-tune the pre-trained model to match these predicted outputs. In a simple convex setting, we show how this approach provably outperforms a variety of iterative unlearning algorithms. Empirically, we use a combination of existing evaluations and a new metric based on the KL-divergence to show that even in non-convex settings, DMM achieves strong unlearning performance relative to existing algorithms. An added benefit of DMM is that it is a meta-algorithm, in the sense that future advances in data attribution translate directly into better unlearning algorithms, pointing to a clear direction for future progress in unlearning.

arxiv情報

著者 Kristian Georgiev,Roy Rinberg,Sung Min Park,Shivam Garg,Andrew Ilyas,Aleksander Madry,Seth Neel
発行日 2024-10-30 17:20:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク