Black-Box Training Data Identification in GANs via Detector Networks

要約

敵対的生成ネットワーク (GAN) は、その開始以来、画像、音声、ビデオ、表形式データにわたる生成モデルとして人気があります。
この論文では、攻撃者が特定のポイントが GAN のトレーニング データのメンバーであるかどうかを効率的に識別できるかどうか、トレーニングされた GAN へのアクセスと、基礎となる分布からの新しいサンプルへのアクセスが与えられるかどうかを検討します。
これは、ユーザーが自分の著作権で保護されたデータが GAN のトレーニングに使用されているかどうかを判断する必要がある著作権に関連する理由と、トレーニング セットのメンバーシップを検出する機能が知られているデータ プライバシーの研究の両方の理由から興味深いものです。
メンバーシップ推論攻撃。
これまでの研究の大部分とは異なり、この論文はブラックボックス設定で GAN を使用することによるプライバシーへの影響を調査します。ブラックボックス設定では、攻撃はディスクリミネーターへのアクセスではなく、ジェネレーターからのサンプルにしかアクセスできません。
ブラックボックス設定で GAN に対する一連のメンバーシップ推論攻撃を導入し、CIFAR10 データセットでトレーニングされた画像 GAN とゲノム データでトレーニングされた表形式 GAN に対する攻撃を評価します。
最も成功した攻撃は、The Detector と呼ばれ、ディストリビューションからの新しいサンプルではなく、GAN によって生成される可能性に基づいてサンプルをスコアリングする 2 番目のネットワークのトレーニングを伴います。
ジェネレータの単純なモデルに基づいて、検出器がほぼ最適なメンバーシップ推論攻撃であることを証明します。
幅広い表形式および画像データセット、攻撃、GAN アーキテクチャにわたって、ジェネレーターからのサンプルへのアクセスが提供されると、敵対者が重要なプライバシー攻撃を組織化できることがわかりました。
同時に、GAN に対して達成可能な攻撃の成功率は、他の生成モデルや識別モデルに比べて依然として低いようです。
このため、GAN は実際にはよりプライベートなものなのか、それともより強力な攻撃を開発するためのものなのかという、興味深い未解決の疑問が残ります。

要約(オリジナル)

Since their inception Generative Adversarial Networks (GANs) have been popular generative models across images, audio, video, and tabular data. In this paper we study whether given access to a trained GAN, as well as fresh samples from the underlying distribution, if it is possible for an attacker to efficiently identify if a given point is a member of the GAN’s training data. This is of interest for both reasons related to copyright, where a user may want to determine if their copyrighted data has been used to train a GAN, and in the study of data privacy, where the ability to detect training set membership is known as a membership inference attack. Unlike the majority of prior work this paper investigates the privacy implications of using GANs in black-box settings, where the attack only has access to samples from the generator, rather than access to the discriminator as well. We introduce a suite of membership inference attacks against GANs in the black-box setting and evaluate our attacks on image GANs trained on the CIFAR10 dataset and tabular GANs trained on genomic data. Our most successful attack, called The Detector, involve training a second network to score samples based on their likelihood of being generated by the GAN, as opposed to a fresh sample from the distribution. We prove under a simple model of the generator that the detector is an approximately optimal membership inference attack. Across a wide range of tabular and image datasets, attacks, and GAN architectures, we find that adversaries can orchestrate non-trivial privacy attacks when provided with access to samples from the generator. At the same time, the attack success achievable against GANs still appears to be lower compared to other generative and discriminative models; this leaves the intriguing open question of whether GANs are in fact more private, or if it is a matter of developing stronger attacks.

arxiv情報

著者 Lukman Olagoke,Salil Vadhan,Seth Neel
発行日 2023-10-18 15:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク