要約
近年、Text-to-Image (T2I) モデルがその目覚ましい進歩により大きな注目を集めています。
ただし、不適切な画像や作業に安全ではない (NSFW) 画像が生成される可能性があるため、セキュリティ上の懸念が生じています。
この論文では、異なるセマンティクスを持つテキストが同様の人間の知覚を引き起こす可能性があるという観察に触発され、PGJ と呼ばれる LLM 主導の知覚誘導ジェイルブレイク手法を提案します。
これは、特定の T2I モデル (モデルフリー) を必要とせず、非常に自然な攻撃プロンプトを生成するブラックボックス ジェイルブレイク方法です。
具体的には、人間の知覚においては類似しているが、テキストの意味論においてターゲットの安全でない単語と一致しない安全なフレーズを識別し、それを置換として使用することを提案します。
6 つのオープンソース モデルと数千のプロンプトを含む商用オンライン サービスで実施された実験により、PGJ の有効性が検証されました。
要約(オリジナル)
In recent years, Text-to-Image (T2I) models have garnered significant attention due to their remarkable advancements. However, security concerns have emerged due to their potential to generate inappropriate or Not-Safe-For-Work (NSFW) images. In this paper, inspired by the observation that texts with different semantics can lead to similar human perceptions, we propose an LLM-driven perception-guided jailbreak method, termed PGJ. It is a black-box jailbreak method that requires no specific T2I model (model-free) and generates highly natural attack prompts. Specifically, we propose identifying a safe phrase that is similar in human perception yet inconsistent in text semantics with the target unsafe word and using it as a substitution. The experiments conducted on six open-source models and commercial online services with thousands of prompts have verified the effectiveness of PGJ.
arxiv情報
著者 | Yihao Huang,Le Liang,Tianlin Li,Xiaojun Jia,Run Wang,Weikai Miao,Geguang Pu,Yang Liu |
発行日 | 2024-08-20 13:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google