要約
モデル反転攻撃(MIA)は、ターゲットとなる分類器の私的な学習データから、モデルの学習知識を利用してクラスごとの特性を反映した合成画像を作成することを目的としています。これまでの研究では、特定のターゲットモデルに合わせた画像プリオルとして、生成敵対的ネットワーク(GAN)を使用する生成型MIAを開発してきました。このため、攻撃には時間とリソースがかかり、柔軟性に欠け、データセット間の分布のずれに影響されやすいという欠点があります。本論文では、これらの欠点を克服するため、ターゲットモデルと画像事前分布の依存関係を緩和し、1つのGANで様々なターゲットを攻撃できるプラグアンドプレイ攻撃を提案します。さらに、従来のアプローチでは意味のある結果を得ることができなかった、一般に公開されている事前学習済みGANや強い分布シフトの下でも、強力なMIAが可能であることを示しました。我々の広範な評価により、Plug & Play Attacksの頑健性と柔軟性が向上し、繊細なクラス特性を明らかにする高品質な画像を作成できることが確認されました。
要約(オリジナル)
Model inversion attacks (MIAs) aim to create synthetic images that reflect the class-wise characteristics from a target classifier’s private training data by exploiting the model’s learned knowledge. Previous research has developed generative MIAs that use generative adversarial networks (GANs) as image priors tailored to a specific target model. This makes the attacks time- and resource-consuming, inflexible, and susceptible to distributional shifts between datasets. To overcome these drawbacks, we present Plug & Play Attacks, which relax the dependency between the target model and image prior, and enable the use of a single GAN to attack a wide range of targets, requiring only minor adjustments to the attack. Moreover, we show that powerful MIAs are possible even with publicly available pre-trained GANs and under strong distributional shifts, for which previous approaches fail to produce meaningful results. Our extensive evaluation confirms the improved robustness and flexibility of Plug & Play Attacks and their ability to create high-quality images revealing sensitive class characteristics.
arxiv情報
著者 | Lukas Struppek,Dominik Hintersdorf,Antonio De Almeida Correia,Antonia Adler,Kristian Kersting |
発行日 | 2022-06-09 08:48:08+00:00 |
arxivサイト | arxiv_id(pdf) |