要約
Stable Diffusion や DALL-E 3 のようなテキストベースの画像生成モデルは、コンテンツ制作やパブリッシングのワークフローにおいて大きな可能性を秘めており、近年注目されています。多様で鮮明な画像を生成する顕著な能力にもかかわらず、虐待、暴力、ポルノなどの有害なコンテンツの生成を防ぐために多大な努力が払われている。既存のモデルの安全性を評価するために、我々はChain-of-Jailbreak(CoJ)攻撃と呼ばれる新しい脱獄手法を導入し、段階的な編集プロセスを通じて画像生成モデルを危険にさらす。具体的には、1回のプロンプトでセーフガードを回避できない悪意のあるクエリに対して、クエリを意図的に複数のサブクエリに分解する。そして画像生成モデルは、これらのサブクエリに基づいて画像を生成し、繰り返し編集するよう促される。我々のCoJ攻撃手法の有効性を評価するため、9つの安全シナリオ、3種類の編集操作、3つの編集要素を含む包括的なデータセットCoJ-Benchを構築した。GPT-4V、GPT-4o、Gemini 1.5およびGemini 1.5 Proによって提供される4つの広く使用されている画像生成サービスに対する実験では、我々のCoJ攻撃手法が60%以上のケースでモデルのセーフガードを回避することに成功し、他の脱獄手法(すなわち14%)を大幅に上回ることが実証された。さらに、我々のCoJ攻撃手法に対するこれらのモデルの安全性を高めるために、我々はまた、CoJ攻撃の95%以上を成功裏に防御することができる効果的なプロンプトベースの方法、Think Twice Promptingを提案する。我々は、AIの安全性研究を促進するために、データセットとコードを公開する。
要約(オリジナル)
Text-based image generation models, such as Stable Diffusion and DALL-E 3, hold significant potential in content creation and publishing workflows, making them the focus in recent years. Despite their remarkable capability to generate diverse and vivid images, considerable efforts are being made to prevent the generation of harmful content, such as abusive, violent, or pornographic material. To assess the safety of existing models, we introduce a novel jailbreaking method called Chain-of-Jailbreak (CoJ) attack, which compromises image generation models through a step-by-step editing process. Specifically, for malicious queries that cannot bypass the safeguards with a single prompt, we intentionally decompose the query into multiple sub-queries. The image generation models are then prompted to generate and iteratively edit images based on these sub-queries. To evaluate the effectiveness of our CoJ attack method, we constructed a comprehensive dataset, CoJ-Bench, encompassing nine safety scenarios, three types of editing operations, and three editing elements. Experiments on four widely-used image generation services provided by GPT-4V, GPT-4o, Gemini 1.5 and Gemini 1.5 Pro, demonstrate that our CoJ attack method can successfully bypass the safeguards of models for over 60% cases, which significantly outperforms other jailbreaking methods (i.e., 14%). Further, to enhance these models’ safety against our CoJ attack method, we also propose an effective prompting-based method, Think Twice Prompting, that can successfully defend over 95% of CoJ attack. We release our dataset and code to facilitate the AI safety research.
arxiv情報
著者 | Wenxuan Wang,Kuiyi Gao,Youliang Yuan,Jen-tse Huang,Qiuzhi Liu,Shuai Wang,Wenxiang Jiao,Zhaopeng Tu |
発行日 | 2025-06-03 17:32:00+00:00 |
arxivサイト | arxiv_id(pdf) |