要約
メンバーシップ推論攻撃 (MIA) は、ターゲットの機械学習モデルのトレーニングに使用されるサンプルのプライバシー リスクを経験的に評価するために広く使用されています。
ただし、最先端の方法では、プライバシー リスクを評価するためだけに、ターゲット モデルと同じサイズとアーキテクチャで数百のシャドウ モデルをトレーニングする必要があります。
小型モデルではこれを購入できるかもしれませんが、中型および大型モデルではコストが法外になることがよくあります。
ここでは、代わりに、追加の計算オーバーヘッドをほとんどまたはまったく発生させずに、トレーニング中に利用可能なアーティファクトのみを使用して、リスクのあるサンプルを特定する新しいアプローチを提案します。
私たちの方法では、サンプルごとの個別の損失トレースを分析し、それらを使用して脆弱なデータ サンプルを特定します。
CIFAR10 データセットの実験を通じてアーティファクト ベースのアプローチの有効性を実証し、SOTA シャドウ モデル ベースの MIA (LiRA) によって決定される脆弱なサンプルの特定における高い精度を示しました。
印象的なことに、私たちの方法は、桁違いに安価であるにもかかわらず、LiRA に対して測定した場合、別の SOTA MIA と同じ精度に達します。
次に、LT-IQR が代替の損失集計手法を上回るパフォーマンスを示し、ハイパーパラメータのアブレーション研究を実行し、ターゲット メトリックに対する手法の堅牢性を検証します。
最後に、モデルレベルのリスク評価の指標として、トレーニング全体を通じて脆弱性スコア分布の変化を研究します。
要約(オリジナル)
Membership inference attacks (MIAs) are widely used to empirically assess the privacy risks of samples used to train a target machine learning model. State-of-the-art methods however require training hundreds of shadow models, with the same size and architecture of the target model, solely to evaluate the privacy risk. While one might be able to afford this for small models, the cost often becomes prohibitive for medium and large models. We here instead propose a novel approach to identify the at-risk samples using only artifacts available during training, with little to no additional computational overhead. Our method analyzes individual per-sample loss traces and uses them to identify the vulnerable data samples. We demonstrate the effectiveness of our artifact-based approach through experiments on the CIFAR10 dataset, showing high precision in identifying vulnerable samples as determined by a SOTA shadow model-based MIA (LiRA). Impressively, our method reaches the same precision as another SOTA MIA when measured against LiRA, despite it being orders of magnitude cheaper. We then show LT-IQR to outperform alternative loss aggregation methods, perform ablation studies on hyperparameters, and validate the robustness of our method to the target metric. Finally, we study the evolution of the vulnerability score distribution throughout training as a metric for model-level risk assessment.
arxiv情報
| 著者 | Joseph Pollock,Igor Shilov,Euodia Dodd,Yves-Alexandre de Montjoye |
| 発行日 | 2024-11-08 18:04:41+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google