Semantic Membership Inference Attack against Large Language Models

要約

メンバーシップ推論攻撃 (MIA) は、特定のデータ ポイントがターゲット モデルのトレーニング セットに含まれているかどうかを判断します。
このペーパーでは、入力の意味論的な内容とその摂動を利用することで MIA のパフォーマンスを向上させる新しいアプローチである Semantic Membership Inference Attack (SMIA) を紹介します。
SMIA は、ニューラル ネットワークをトレーニングして、摂動入力に対するターゲット モデルの動作を分析し、メンバーと非メンバー間の出力確率分布の変動を効果的に捕捉します。
Wikipedia データセットを使用して、Pythia および GPT-Neo モデル ファミリの包括的な評価を実行します。
私たちの結果は、SMIA が既存の MIA よりも大幅に優れていることを示しています。
たとえば、SMIA は Pythia-12B で 67.39% の AUC-ROC を達成しましたが、2 番目に優れた攻撃では 58.90% でした。

要約(オリジナル)

Membership Inference Attacks (MIAs) determine whether a specific data point was included in the training set of a target model. In this paper, we introduce the Semantic Membership Inference Attack (SMIA), a novel approach that enhances MIA performance by leveraging the semantic content of inputs and their perturbations. SMIA trains a neural network to analyze the target model’s behavior on perturbed inputs, effectively capturing variations in output probability distributions between members and non-members. We conduct comprehensive evaluations on the Pythia and GPT-Neo model families using the Wikipedia dataset. Our results show that SMIA significantly outperforms existing MIAs; for instance, SMIA achieves an AUC-ROC of 67.39% on Pythia-12B, compared to 58.90% by the second-best attack.

arxiv情報

著者 Hamid Mozaffari,Virendra J. Marathe
発行日 2024-06-14 17:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク