Injecting Bias in Text-To-Image Models via Composite-Trigger Backdoors

要約

Stable Diffusion、Midjourney、DALL-E 3 などの大規模なテキスト条件付き画像生成モデルの最近の進歩により、画像生成の分野に革命が起こり、ユーザーはテキスト プロンプトから高品質でリアルな画像を生成できるようになりました。
これらの発展は芸術的創造と視覚的コミュニケーションを強化する一方で、未開発の攻撃の機会ももたらします。それは、社会に影響を与えたり、プロパガンダを広めたりするなど、悪意のある目的で、生成された画像に敵対者による偏見を誘発する可能性です。
この論文では、少数の悪意のあるデータ サンプルを使用してそのようなモデルをバックドアする攻撃者によるバイアス注入脅威の可能性を実証します。
実装されたバックドアは、バックドア モデルの入力プロンプトに特別なトリガーが存在する場合にアクティブになります。
一方で、トリガーがない場合でもモデルの有用性は保たれるため、攻撃は非常に検出されにくくなります。
我々は、このような攻撃に対する複合(複数ワード)トリガーを備えたポイズニングサンプルの効率的な生成を可能にする新しいフレームワークを紹介します。
100 万を超える生成された画像と数百の微調整されたモデルを使用した広範な実験により、提示されたバックドア攻撃の実現可能性が実証されました。
これらのバイアスがどのようにして従来の検出メカニズムを回避できるかを説明し、運用上の制約内でバイアスの存在を証明する際の課題を強調します。
私たちのコスト分析により、このような攻撃の実行に対する経済的障壁が低いことが確認され、テキストから画像への生成モデルにおけるこのような脆弱性に対する堅牢な防御戦略の必要性が強調されています。

要約(オリジナル)

Recent advances in large text-conditional image generative models such as Stable Diffusion, Midjourney, and DALL-E 3 have revolutionized the field of image generation, allowing users to produce high-quality, realistic images from textual prompts. While these developments have enhanced artistic creation and visual communication, they also present an underexplored attack opportunity: the possibility of inducing biases by an adversary into the generated images for malicious intentions, e.g., to influence society and spread propaganda. In this paper, we demonstrate the possibility of such a bias injection threat by an adversary who backdoors such models with a small number of malicious data samples; the implemented backdoor is activated when special triggers exist in the input prompt of the backdoored models. On the other hand, the model’s utility is preserved in the absence of the triggers, making the attack highly undetectable. We present a novel framework that enables efficient generation of poisoning samples with composite (multi-word) triggers for such an attack. Our extensive experiments using over 1 million generated images and against hundreds of fine-tuned models demonstrate the feasibility of the presented backdoor attack. We illustrate how these biases can bypass conventional detection mechanisms, highlighting the challenges in proving the existence of biases within operational constraints. Our cost analysis confirms the low financial barrier to executing such attacks, underscoring the need for robust defensive strategies against such vulnerabilities in text-to-image generation models.

arxiv情報

著者 Ali Naseh,Jaechul Roh,Eugene Bagdasaryan,Amir Houmansadr
発行日 2024-06-21 14:53:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク