Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis

要約

テキストから画像への合成は現在、研究者や一般の人々の間で非常に人気がありますが、これらのモデルのセキュリティはこれまで無視されてきました。
多くのテキスト ガイド付き画像生成モデルは、外部ソースからの事前トレーニング済みテキスト エンコーダーに依存しており、それらのユーザーは、取得したモデルが約束どおりに動作することを信頼しています。
残念ながら、そうではないかもしれません。
テキストガイド生成モデルに対するバックドア攻撃を紹介し、そのテキスト エンコーダーが大きな改ざんリスクをもたらすことを示します。
私たちの攻撃は、エンコーダーをわずかに変更するだけなので、クリーンなプロンプトを使用した画像生成で疑わしいモデルの動作が明らかになることはありません。
次に、非ラテン文字や絵文字などの単一文字トリガーをプロンプトに挿入することで、敵対者はモデルをトリガーして、事前定義された属性を持つ画像、または隠された潜在的に悪意のある説明に続く画像を生成できます。
私たちは、Stable Diffusion に対する攻撃の高い有効性を経験的に実証し、1 つのバックドアの注入プロセスに 2 分もかからないことを強調しています。
私たちのアプローチを単に攻撃として表現するだけでなく、ヌードや暴力などの特定の概念に関連するフレーズをエンコーダーに強制的に忘れさせ、画像生成をより安全にするのに役立ちます.

要約(オリジナル)

While text-to-image synthesis currently enjoys great popularity among researchers and the general public, the security of these models has been neglected so far. Many text-guided image generation models rely on pre-trained text encoders from external sources, and their users trust that the retrieved models will behave as promised. Unfortunately, this might not be the case. We introduce backdoor attacks against text-guided generative models and demonstrate that their text encoders pose a major tampering risk. Our attacks only slightly alter an encoder so that no suspicious model behavior is apparent for image generations with clean prompts. By then inserting a single character trigger into the prompt, e.g., a non-Latin character or emoji, the adversary can trigger the model to either generate images with pre-defined attributes or images following a hidden, potentially malicious description. We empirically demonstrate the high effectiveness of our attacks on Stable Diffusion and highlight that the injection process of a single backdoor takes less than two minutes. Besides phrasing our approach solely as an attack, it can also force an encoder to forget phrases related to certain concepts, such as nudity or violence, and help to make image generation safer.

arxiv情報

著者 Lukas Struppek,Dominik Hintersdorf,Kristian Kersting
発行日 2023-03-16 16:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク