BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models

要約

テキストから画像への生成人工知能 (AI) の人気の高まりは、広く一般の関心を集めています。
このテクノロジーが攻撃されて、ユーザーを巧妙に操作するコンテンツが生成される可能性があることを実証します。
私たちは、テキストから画像への生成モデル (BAGM) に対するバックドア攻撃を提案します。BAGM は、トリガーされると、生成された画像に、コンテンツに自然に溶け込む操作可能な詳細を注入します。
私たちの攻撃は、埋め込みトークナイザー、言語モデル、または画像生成モデルの動作を変更することにより、生成プロセスの 3 つの段階にわたって 3 つの一般的なテキストから画像への生成モデルを初めてターゲットにしました。
BAGM は、侵入レベルに基づいて、この記事では表面攻撃、浅い攻撃、および深い攻撃と呼ばれる一連の攻撃の形式をとります。
この領域内の既存のギャップを考慮して、テキストから画像へのモデルに対するバックドア攻撃の有効性を評価するために特別に設計された包括的な定量的指標のセットも提供します。
BAGM の有効性は、ターゲット ドメインとしてマーケティング シナリオを使用して、最先端の生成モデルを攻撃することによって確立されます。
そのために、私たちはブランド製品画像のデータセットを提供します。
当社の埋め込みバックドアは、モデルの堅牢性や生成されたコンテンツのユーティリティを損なうことなく、ターゲット出力へのバイアスを通常の 5 倍以上増加させます。
生成 AI の脆弱性を明らかにすることで、研究者がこれらの課題に取り組むことを奨励し、実践者が事前トレーニングされたモデルを使用する際には注意することを推奨します。
関連するコード、入力プロンプト、補足資料は https://github.com/JJ-Vice/BAGM で見つけることができ、データセットは https://ieee-dataport.org/documents/marketable-foods-mf で入手できます。
-データセット。
キーワード: 生成人工知能、生成モデル、Text-to-Image 生成、バックドア攻撃、トロイの木馬、安定拡散。

要約(オリジナル)

The rise in popularity of text-to-image generative artificial intelligence (AI) has attracted widespread public interest. We demonstrate that this technology can be attacked to generate content that subtly manipulates its users. We propose a Backdoor Attack on text-to-image Generative Models (BAGM), which upon triggering, infuses the generated images with manipulative details that are naturally blended in the content. Our attack is the first to target three popular text-to-image generative models across three stages of the generative process by modifying the behaviour of the embedded tokenizer, the language model or the image generative model. Based on the penetration level, BAGM takes the form of a suite of attacks that are referred to as surface, shallow and deep attacks in this article. Given the existing gap within this domain, we also contribute a comprehensive set of quantitative metrics designed specifically for assessing the effectiveness of backdoor attacks on text-to-image models. The efficacy of BAGM is established by attacking state-of-the-art generative models, using a marketing scenario as the target domain. To that end, we contribute a dataset of branded product images. Our embedded backdoors increase the bias towards the target outputs by more than five times the usual, without compromising the model robustness or the generated content utility. By exposing generative AI’s vulnerabilities, we encourage researchers to tackle these challenges and practitioners to exercise caution when using pre-trained models. Relevant code, input prompts and supplementary material can be found at https://github.com/JJ-Vice/BAGM, and the dataset is available at: https://ieee-dataport.org/documents/marketable-foods-mf-dataset. Keywords: Generative Artificial Intelligence, Generative Models, Text-to-Image generation, Backdoor Attacks, Trojan, Stable Diffusion.

arxiv情報

著者 Jordan Vice,Naveed Akhtar,Richard Hartley,Ajmal Mian
発行日 2023-09-05 09:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク