BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models

要約

テキストから画像への生成人工知能 (AI) の人気の高まりは、広く一般の関心を集めています。
同時に、バックドア攻撃はニューラル モデルを効果的に操作するものとして機械学習の文献でよく知られており、実務家の間で懸念が高まっています。
私たちは、テキストから画像への生成モデル (BAGM) に対するバックドア攻撃を導入することで、生成 AI に対するこの脅威を強調します。
私たちの攻撃は、テキストから画像への生成パイプラインのさまざまな段階をターゲットにしており、埋め込みトークナイザー、事前トレーニングされた言語およびビジュアル ニューラル ネットワークの動作を変更します。
BAGM は、侵入レベルに基づいて、この記事では表面攻撃、浅い攻撃、および深い攻撃と呼ばれる一連の攻撃の形式をとります。
BAGM のパフォーマンスを、最近出現した関連手法と比較します。
また、将来の生成 AI モデルに対するバックドア攻撃のパフォーマンスを評価するための一連の定量的指標にも貢献します。
提案されたフレームワークの有効性は、デジタルマーケティングシナリオにおける最先端の安定普及パイプラインをターゲットドメインとしてターゲットにすることによって確立されます。
この目的のために、私たちはブランド製品画像の Marketable Foods データセットも提供しています。
私たちは、この研究が現代の生成 AI のセキュリティ課題を明らかにすることに貢献し、それらの課題に対処するための先制的な取り組みについての議論を促進することを願っています。
キーワード: 生成人工知能、生成モデル、Text-to-Image 生成、バックドア攻撃、トロイの木馬、安定拡散。

要約(オリジナル)

The rise in popularity of text-to-image generative artificial intelligence (AI) has attracted widespread public interest. At the same time, backdoor attacks are well-known in machine learning literature for their effective manipulation of neural models, which is a growing concern among practitioners. We highlight this threat for generative AI by introducing a Backdoor Attack on text-to-image Generative Models (BAGM). Our attack targets various stages of the text-to-image generative pipeline, modifying the behaviour of the embedded tokenizer and the pre-trained language and visual neural networks. Based on the penetration level, BAGM takes the form of a suite of attacks that are referred to as surface, shallow and deep attacks in this article. We compare the performance of BAGM to recently emerging related methods. We also contribute a set of quantitative metrics for assessing the performance of backdoor attacks on generative AI models in the future. The efficacy of the proposed framework is established by targeting the state-of-the-art stable diffusion pipeline in a digital marketing scenario as the target domain. To that end, we also contribute a Marketable Foods dataset of branded product images. We hope this work contributes towards exposing the contemporary generative AI security challenges and fosters discussions on preemptive efforts for addressing those challenges. Keywords: Generative Artificial Intelligence, Generative Models, Text-to-Image generation, Backdoor Attacks, Trojan, Stable Diffusion.

arxiv情報

著者 Jordan Vice,Naveed Akhtar,Richard Hartley,Ajmal Mian
発行日 2023-07-31 08:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク