要約
メンバーシップ推論攻撃は、トレーニングされたモデルへのブラック ボックス アクセスを使用して、特定の例がトレーニングで使用されたかどうかを判断するように設計されています。
メンバーシップ推論は、仮説検証問題として形式化できます。
最も効果的な既存の攻撃は、多数の \emph{シャドウ モデル} (つまり、同じモデル) を訓練することによって、訓練に使用された (または使用されなかった) 点に関する何らかの検定統計量 (通常、真のラベルに対するモデルの信頼度) の分布を推定します。
攻撃されるモデルとしてのアーキテクチャは、データのランダムなサブサンプルでトレーニングされます。
これらの攻撃は効果的ではありますが、特に攻撃対象のモデルが大きい場合、計算コストが非常に高くなります。
トレーニングに使用されないポイントに対する攻撃対象のモデルによって誘発される信頼スコアの分布に対する分位点回帰の実行に基づいた、新しいクラスの攻撃を導入します。
私たちの手法は、最先端のシャドウ モデル攻撃と競合する一方、攻撃に必要なトレーニングは 1 つのモデルのみであるため、必要なコンピューティングが大幅に少なくなることを示します。
さらに、シャドウ モデル攻撃とは異なり、私たちが提案する攻撃は攻撃対象のモデルのアーキテクチャに関する知識を必要としないため、まさに「ブラック ボックス」です。
私たちは、さまざまなデータセットとモデル アーキテクチャに関する広範な一連の実験で、このアプローチの有効性を示します。
要約(オリジナル)
Membership inference attacks are designed to determine, using black box access to trained models, whether a particular example was used in training or not. Membership inference can be formalized as a hypothesis testing problem. The most effective existing attacks estimate the distribution of some test statistic (usually the model’s confidence on the true label) on points that were (and were not) used in training by training many \emph{shadow models} — i.e. models of the same architecture as the model being attacked, trained on a random subsample of data. While effective, these attacks are extremely computationally expensive, especially when the model under attack is large. We introduce a new class of attacks based on performing quantile regression on the distribution of confidence scores induced by the model under attack on points that are not used in training. We show that our method is competitive with state-of-the-art shadow model attacks, while requiring substantially less compute because our attack requires training only a single model. Moreover, unlike shadow model attacks, our proposed attack does not require any knowledge of the architecture of the model under attack and is therefore truly “black-box’. We show the efficacy of this approach in an extensive series of experiments on various datasets and model architectures.
arxiv情報
著者 | Martin Bertran,Shuai Tang,Michael Kearns,Jamie Morgenstern,Aaron Roth,Zhiwei Steven Wu |
発行日 | 2023-07-07 16:07:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google