Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy

要約

モデルの学習コストが高いため、学習解除のための技術を開発することがますます望まれている。これらの技術は、モデルをゼロから再学習させることなく、学習例の影響を除去しようとするものである。直観的に言えば、一旦モデルが学習解除すれば、モデルと相互作用する敵対者は、学習解除された例がモデルの学習セットに含まれているかどうかを知ることができなくなるはずである。プライバシーに関する文献では、これはメンバーシップ推論として知られている。本研究では、メンバーシップ推論攻撃(MIAs)を学習解除の設定に適応させたもの(U-MIAsに相当するもの)について議論する。既存のU-MIAを、全ての例に対して同じ攻撃者がインスタンス化される“population U-MIA”と、各例に対して専用の攻撃者がインスタンス化される“per-example U-MIA”に分類することを提案する。我々は、攻撃者が攻撃対象の各例に合わせてメンバシップ予測を行う後者のカテゴリーが有意に強力であることを示す。実際、我々の結果は、学習解除の文献で一般的に用いられているU-MIAが、視覚モデルと言語モデルの両方において、既存の学習解除技術によって与えられるプライバシー保護を過大評価していることを示している。我々の調査により、例ごとのU-MIAに対する異なる例の脆弱性に大きなばらつきがあることが明らかになった。実際、いくつかの学習解除アルゴリズムは、学習解除したいいくつかの例(全てではないが)に対して脆弱性を減少させるが、他の例に対しては脆弱性を増加させる。注目すべきは、学習解除の結果、残りの訓練例のプライバシー保護が悪化する可能性があることである。また、学習解除の速度が異なるため、既存の学習解除スキームを用いて全ての例を等しく保護することの根本的な難しさについても議論する。学習解除の停止基準を異なる例に合わせる素朴な試みでは、これらの問題を軽減できないことを示す。

要約(オリジナル)

The high cost of model training makes it increasingly desirable to develop techniques for unlearning. These techniques seek to remove the influence of a training example without having to retrain the model from scratch. Intuitively, once a model has unlearned, an adversary that interacts with the model should no longer be able to tell whether the unlearned example was included in the model’s training set or not. In the privacy literature, this is known as membership inference. In this work, we discuss adaptations of Membership Inference Attacks (MIAs) to the setting of unlearning (leading to their “U-MIA” counterparts). We propose a categorization of existing U-MIAs into “population U-MIAs”, where the same attacker is instantiated for all examples, and “per-example U-MIAs”, where a dedicated attacker is instantiated for each example. We show that the latter category, wherein the attacker tailors its membership prediction to each example under attack, is significantly stronger. Indeed, our results show that the commonly used U-MIAs in the unlearning literature overestimate the privacy protection afforded by existing unlearning techniques on both vision and language models. Our investigation reveals a large variance in the vulnerability of different examples to per-example U-MIAs. In fact, several unlearning algorithms lead to a reduced vulnerability for some, but not all, examples that we wish to unlearn, at the expense of increasing it for other examples. Notably, we find that the privacy protection for the remaining training examples may worsen as a consequence of unlearning. We also discuss the fundamental difficulty of equally protecting all examples using existing unlearning schemes, due to the different rates at which examples are unlearned. We demonstrate that naive attempts at tailoring unlearning stopping criteria to different examples fail to alleviate these issues.

arxiv情報

著者 Jamie Hayes,Ilia Shumailov,Eleni Triantafillou,Amr Khalifa,Nicolas Papernot
発行日 2024-03-02 14:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク