要約
メンバーシップ推論攻撃 (MIA) は、特定のデータ ポイントがターゲット モデルのトレーニング セットに含まれているかどうかを判断します。
このペーパーでは、入力の意味論的な内容とその摂動を利用することで MIA のパフォーマンスを向上させる新しいアプローチである Semantic Membership Inference Attack (SMIA) を紹介します。
SMIA は、ニューラル ネットワークをトレーニングして、摂動入力に対するターゲット モデルの動作を分析し、メンバーと非メンバー間の出力確率分布の変動を効果的に捕捉します。
Wikipedia データセットを使用して、Pythia および GPT-Neo モデル ファミリの包括的な評価を実行します。
私たちの結果は、SMIA が既存の MIA よりも大幅に優れていることを示しています。
たとえば、SMIA は Pythia-12B で 67.39% の AUC-ROC を達成しましたが、2 番目に優れた攻撃では 58.90% でした。
要約(オリジナル)
Membership Inference Attacks (MIAs) determine whether a specific data point was included in the training set of a target model. In this paper, we introduce the Semantic Membership Inference Attack (SMIA), a novel approach that enhances MIA performance by leveraging the semantic content of inputs and their perturbations. SMIA trains a neural network to analyze the target model’s behavior on perturbed inputs, effectively capturing variations in output probability distributions between members and non-members. We conduct comprehensive evaluations on the Pythia and GPT-Neo model families using the Wikipedia dataset. Our results show that SMIA significantly outperforms existing MIAs; for instance, SMIA achieves an AUC-ROC of 67.39% on Pythia-12B, compared to 58.90% by the second-best attack.
arxiv情報
著者 | Hamid Mozaffari,Virendra J. Marathe |
発行日 | 2024-06-14 17:53:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google