RT-Attack: Jailbreaking Text-to-Image Models via Random Token

要約

最近、Text-to-Image (T2I) モデルは、画像の生成と編集において目覚ましい成功を収めていますが、これらのモデルには、特に不適切なコンテンツや作業に安全ではない (NSFW) コンテンツの生成において、依然として多くの潜在的な問題が残されています。
攻撃を強化し、そのような脆弱性を明らかにすることで、信頼性が高く実用的な T2I モデルの開発を進めることができます。
これまでの研究のほとんどは、T2I モデルをホワイトボックス システムとして扱い、勾配最適化を使用して敵対的なプロンプトを生成しました。
ただし、現実世界のシナリオでは、モデルの勾配にアクセスすることは多くの場合不可能です。
さらに、勾配マスキングを使用する既存の防御方法は、攻撃者が正確な勾配情報を取得できないように設計されています。
いくつかのブラックボックスジェイルブレイク攻撃が検討されていますが、これらは通常、機密性の高い単語を単純に置き換えることに依存しており、攻撃パフォーマンスが最適ではありません。
この問題に対処するために、ランダム検索を利用した 2 段階のクエリベースのブラックボックス攻撃手法を導入します。
最初の段階では、敵対的なプロンプトとターゲットの有害なプロンプトの間の意味上の類似性を最大化することによって、予備的なプロンプトを確立します。
第 2 段階では、この最初のプロンプトを使用してアプローチを改良し、ジェイルブレイクを目的とした詳細な敵対的プロンプトを作成し、このプロンプトから生成された画像とターゲットの有害なプロンプトによって生成された画像の間の画像特徴の類似性を最大化します。
広範な実験により、最新のプロンプト チェッカー、ポストホック イメージ チェッカー、安全にトレーニングされた T2I モデル、およびオンライン商用モデルを攻撃する際のこの手法の有効性が検証されています。

要約(オリジナル)

Recently, Text-to-Image(T2I) models have achieved remarkable success in image generation and editing, yet these models still have many potential issues, particularly in generating inappropriate or Not-Safe-For-Work(NSFW) content. Strengthening attacks and uncovering such vulnerabilities can advance the development of reliable and practical T2I models. Most of the previous works treat T2I models as white-box systems, using gradient optimization to generate adversarial prompts. However, accessing the model’s gradient is often impossible in real-world scenarios. Moreover, existing defense methods, those using gradient masking, are designed to prevent attackers from obtaining accurate gradient information. While some black-box jailbreak attacks have been explored, these typically rely on simply replacing sensitive words, leading to suboptimal attack performance. To address this issue, we introduce a two-stage query-based black-box attack method utilizing random search. In the first stage, we establish a preliminary prompt by maximizing the semantic similarity between the adversarial and target harmful prompts. In the second stage, we use this initial prompt to refine our approach, creating a detailed adversarial prompt aimed at jailbreaking and maximizing the similarity in image features between the images generated from this prompt and those produced by the target harmful prompt. Extensive experiments validate the effectiveness of our method in attacking the latest prompt checkers, post-hoc image checkers, securely trained T2I models, and online commercial models.

arxiv情報

著者 Sensen Gao,Xiaojun Jia,Yihao Huang,Ranjie Duan,Jindong Gu,Yang Liu,Qing Guo
発行日 2024-08-27 15:13:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク