Evading Forensic Classifiers with Attribute-Conditioned Adversarial Faces

要約

非常に現実的な合成顔画像を生成する生成モデルの機能により、セキュリティと倫理上の懸念が生じています。
このような偽の顔に対する防御の第一線として、深層学習ベースの法医学分類器が開発されました。
これらのフォレンジック モデルは、顔画像が合成か本物かを高精度で検出できますが、敵対的な攻撃に対して脆弱でもあります。
このような攻撃は、法医学的分類器による検出を回避することに非常に成功する可能性がありますが、人間による慎重な精査によって検出可能な目に見えるノイズ パターンが発生します。
さらに、これらの攻撃はターゲット モデルへのアクセスを前提としていますが、これが常に真実であるとは限りません。
GAN の潜在空間を直接撹乱して、法医学的分類器を回避できる敵対的な偽の顔を生成する試みが行われてきました。
この研究では、さらに一歩進んで、指定された一連の属性 (髪の色、目の大きさ、人種、性別など) を備えた敵対的な偽の顔を正常に生成できることを示します。
この目標を達成するために、私たちはもつれの解けた表現を備えた最先端の生成モデル StyleGAN を活用し、自然画像の多様性を残すことなくさまざまな変更を可能にします。
私たちは、StyleGAN の機能空間内で敵対的な潜在コードを検索するためのフレームワークを提案します。このフレームワークでは、検索はテキスト プロンプトまたは参照画像によってガイドできます。
また、未知のターゲットモデルで転送可能なパフォーマンスを達成するためのメタ学習ベースの最適化戦略も提案します。
広範な実験により、提案されたアプローチが意味的に操作された敵対的な偽の顔を生成できることが実証されており、これは指定された属性セットに忠実であり、人間には検出されないまま、法医学的な顔分類器をうまく騙すことができます。
コード: https://github.com/koushiksrivats/face_attribute_攻撃。

要約(オリジナル)

The ability of generative models to produce highly realistic synthetic face images has raised security and ethical concerns. As a first line of defense against such fake faces, deep learning based forensic classifiers have been developed. While these forensic models can detect whether a face image is synthetic or real with high accuracy, they are also vulnerable to adversarial attacks. Although such attacks can be highly successful in evading detection by forensic classifiers, they introduce visible noise patterns that are detectable through careful human scrutiny. Additionally, these attacks assume access to the target model(s) which may not always be true. Attempts have been made to directly perturb the latent space of GANs to produce adversarial fake faces that can circumvent forensic classifiers. In this work, we go one step further and show that it is possible to successfully generate adversarial fake faces with a specified set of attributes (e.g., hair color, eye size, race, gender, etc.). To achieve this goal, we leverage the state-of-the-art generative model StyleGAN with disentangled representations, which enables a range of modifications without leaving the manifold of natural images. We propose a framework to search for adversarial latent codes within the feature space of StyleGAN, where the search can be guided either by a text prompt or a reference image. We also propose a meta-learning based optimization strategy to achieve transferable performance on unknown target models. Extensive experiments demonstrate that the proposed approach can produce semantically manipulated adversarial fake faces, which are true to the specified attribute set and can successfully fool forensic face classifiers, while remaining undetectable by humans. Code: https://github.com/koushiksrivats/face_attribute_attack.

arxiv情報

著者 Fahad Shamshad,Koushik Srivatsan,Karthik Nandakumar
発行日 2023-06-22 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク