Preserving Privacy in GANs Against Membership Inference Attack

要約

Generative Adversarial Networks (GAN) は、現実世界のデータセットのサイズが限られている場合、またはデータ所有者がデータ サンプルを共有したくない場合に合成データを生成するために広く使用されています。
最近の研究では、GAN が過学習と記憶により、トレーニング データ サンプルに関する情報が漏洩する可能性があることが示されました。
これにより、GAN はメンバーシップ推論攻撃 (MIA) に対して脆弱になります。
このプライバシー問題を軽減するために、文献でいくつかの防御戦略が提案されています。
残念ながら、差分プライバシーに基づく防御戦略は、合成データ ポイントの品質を大幅に低下させることが証明されています。
一方で、PrivGAN や PAR-GAN などの最近のフレームワークは、小規模なトレーニング データセットには適していません。
現在の研究では、GAN の過学習が弁別器の観点から研究され、Bhattacharyya 係数に基づいた過学習のより一般的な尺度が定義されます。
次に、ファノの不等式に触発されて、MIA に対する最初の防御メカニズムが提案されます。
このフレームワークは、GAN の損失関数に簡単な変更を加えるだけで済み、最大エントロピー GAN または MEGAN と呼ばれ、MIA に対する GAN の堅牢性を大幅に向上させます。
2 番目の防御戦略として、生成されたサンプルからトレーニング データ ポイントに関して漏洩する情報を最小限に抑えることに基づいた、よりヒューリスティックなモデルが提示されます。
このアプローチは相互情報量最小化 GAN (MIMGAN) と呼ばれ、相互情報量の変分表現を使用して、合成サンプルからトレーニング データ セット全体に関して漏洩する可能性のある情報を最小限に抑えます。
提案されたフレームワークを、最先端の MIA に対して一般的に使用されるデータセットに適用すると、提案された方法により、合成データ サンプルの品質がわずかに低下するだけで、攻撃者の精度をランダムな推測精度のレベルまで低下させることができることが明らかになりました。

要約(オリジナル)

Generative Adversarial Networks (GANs) have been widely used for generating synthetic data for cases where there is a limited size real-world dataset or when data holders are unwilling to share their data samples. Recent works showed that GANs, due to overfitting and memorization, might leak information regarding their training data samples. This makes GANs vulnerable to Membership Inference Attacks (MIAs). Several defense strategies have been proposed in the literature to mitigate this privacy issue. Unfortunately, defense strategies based on differential privacy are proven to reduce extensively the quality of the synthetic data points. On the other hand, more recent frameworks such as PrivGAN and PAR-GAN are not suitable for small-size training datasets. In the present work, the overfitting in GANs is studied in terms of the discriminator, and a more general measure of overfitting based on the Bhattacharyya coefficient is defined. Then, inspired by Fano’s inequality, our first defense mechanism against MIAs is proposed. This framework, which requires only a simple modification in the loss function of GANs, is referred to as the maximum entropy GAN or MEGAN and significantly improves the robustness of GANs to MIAs. As a second defense strategy, a more heuristic model based on minimizing the information leaked from generated samples about the training data points is presented. This approach is referred to as mutual information minimization GAN (MIMGAN) and uses a variational representation of the mutual information to minimize the information that a synthetic sample might leak about the whole training data set. Applying the proposed frameworks to some commonly used data sets against state-of-the-art MIAs reveals that the proposed methods can reduce the accuracy of the adversaries to the level of random guessing accuracy with a small reduction in the quality of the synthetic data samples.

arxiv情報

著者 Mohammadhadi Shateri,Francisco Messina,Fabrice Labeau,Pablo Piantanida
発行日 2023-11-06 15:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, eess.SP パーマリンク