Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy

要約

モデルのトレーニングにはコストがかかるため、非学習のための手法を開発することがますます望まれています。
これらの手法は、モデルを最初から再トレーニングすることなく、トレーニング サンプルの影響を除去することを目的としています。
直感的には、モデルが学習解除されると、そのモデルと対話する敵対者は、学習されていない例がモデルのトレーニング セットに含まれているかどうかを判断できなくなるはずです。
プライバシー関連の文献では、これはメンバーシップ推論として知られています。
この研究では、メンバーシップ推論攻撃 (MIA) を非学習の設定に適応させる方法について説明します (「U-MIA」の対応物につながる)。
我々は、既存の U-MIA を、すべての例に対して同じ攻撃者がインスタンス化される「ポピュレーション U-MIA」と、例ごとに専用の攻撃者がインスタンス化される「例ごとの U-MIA」に分類することを提案します。
我々は、攻撃者が攻撃対象の各例に合わせてメンバーシップ予測を調整する後者のカテゴリの方が大幅に強力であることを示します。
実際、私たちの結果は、アンラーニング文献で一般的に使用されている U-MIA が、視覚モデルと言語モデルの両方について既存のアンラーニング技術によって提供されるプライバシー保護を過大評価していることを示しています。
私たちの調査により、サンプルごとの U-MIA に対するさまざまなサンプルの脆弱性には大きなばらつきがあることが明らかになりました。
実際、いくつかのアンラーニング アルゴリズムは、他のサンプルの脆弱性を増加させる代わりに、アンラーニングしたい一部のサンプル (すべてではない) の脆弱性を軽減します。
特に、残りのトレーニング例のプライバシー保護は、学習を忘れた結果として悪化する可能性があることがわかりました。
また、例が未学習になる速度が異なるため、既存の未学習スキームを使用してすべての例を均等に保護することの基本的な困難についても説明します。
我々は、未学習停止基準をさまざまな例に合わせて調整する単純な試みでは、これらの問題を軽減できないことを示します。

要約(オリジナル)

The high cost of model training makes it increasingly desirable to develop techniques for unlearning. These techniques seek to remove the influence of a training example without having to retrain the model from scratch. Intuitively, once a model has unlearned, an adversary that interacts with the model should no longer be able to tell whether the unlearned example was included in the model’s training set or not. In the privacy literature, this is known as membership inference. In this work, we discuss adaptations of Membership Inference Attacks (MIAs) to the setting of unlearning (leading to their ‘U-MIA’ counterparts). We propose a categorization of existing U-MIAs into ‘population U-MIAs’, where the same attacker is instantiated for all examples, and ‘per-example U-MIAs’, where a dedicated attacker is instantiated for each example. We show that the latter category, wherein the attacker tailors its membership prediction to each example under attack, is significantly stronger. Indeed, our results show that the commonly used U-MIAs in the unlearning literature overestimate the privacy protection afforded by existing unlearning techniques on both vision and language models. Our investigation reveals a large variance in the vulnerability of different examples to per-example U-MIAs. In fact, several unlearning algorithms lead to a reduced vulnerability for some, but not all, examples that we wish to unlearn, at the expense of increasing it for other examples. Notably, we find that the privacy protection for the remaining training examples may worsen as a consequence of unlearning. We also discuss the fundamental difficulty of equally protecting all examples using existing unlearning schemes, due to the different rates at which examples are unlearned. We demonstrate that naive attempts at tailoring unlearning stopping criteria to different examples fail to alleviate these issues.

arxiv情報

著者 Jamie Hayes,Ilia Shumailov,Eleni Triantafillou,Amr Khalifa,Nicolas Papernot
発行日 2024-05-21 17:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク