Cheating Suffix: Targeted Attack to Text-To-Image Diffusion Models with Multi-Modal Priors

要約

拡散モデルは様々な画像生成タスクに広く導入されており、画像とテキストモダリティの間の並外れたつながりを示している。しかし、拡散モデルは、元のプロンプトに特定の接尾辞を付加することによって、有害な画像や機密画像を生成するために悪意を持って悪用されるという課題に直面している。既存の研究では、主に単一モダルの情報を使用して攻撃を行うことに重点を置いているため、マルチモダルの特徴を利用できず、満足のいく性能が得られません。本研究では、マルチモーダルプリオ(MMP)、すなわちテキストと画像の両方の特徴を統合し、MMP-Attackと名付けた標的型攻撃手法を提案する。具体的には、MMP-Attackの目的は、画像コンテンツにターゲットオブジェクトを追加すると同時に、元のオブジェクトを削除することである。MMP-Attack は、DALL-E 3 のような商用 T2I(Text-to-Image) モデルを効果的に攻撃することができ、優れた普遍性と転送性により、既存 の研究に対して顕著な優位性を示す。私たちのコードは、୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)

要約(オリジナル)

Diffusion models have been widely deployed in various image generation tasks, demonstrating an extraordinary connection between image and text modalities. However, they face challenges of being maliciously exploited to generate harmful or sensitive images by appending a specific suffix to the original prompt. Existing works mainly focus on using single-modal information to conduct attacks, which fails to utilize multi-modal features and results in less than satisfactory performance. Integrating multi-modal priors (MMP), i.e. both text and image features, we propose a targeted attack method named MMP-Attack in this work. Specifically, the goal of MMP-Attack is to add a target object into the image content while simultaneously removing the original object. The MMP-Attack shows a notable advantage over existing works with superior universality and transferability, which can effectively attack commercial text-to-image (T2I) models such as DALL-E 3. To the best of our knowledge, this marks the first successful attempt of transfer-based attack to commercial T2I models. Our code is publicly available at \url{https://github.com/ydc123/MMP-Attack}.

arxiv情報

著者 Dingcheng Yang,Yang Bai,Xiaojun Jia,Yang Liu,Xiaochun Cao,Wenjian Yu
発行日 2024-02-02 12:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク