Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts

要約

テキストから画像への拡散モデル。
安定拡散 (SD) は、最近、高品質のコンテンツ生成において顕著な能力を示しており、最近の革新的な AI の波を代表するものの 1 つとなっています。
それにもかかわらず、このような進歩には、この生成技術の悪用、特に著作権で保護された画像や NSFW (つまり、安全ではない) 画像の作成に対する懸念が高まっています。
モデルの微調整によって、不適切な画像やプロンプトをフィルタリングしたり、望ましくない概念やスタイルを削除したりする取り組みが行われてきましたが、多様化した問題のあるプロンプトに対するこれらの安全メカニズムの信頼性は、ほとんど調査されていないままです。
この研究では、導入された安全メカニズムの信頼性をテストするために、拡散モデルの問題のあるプロンプトを自動的に検出するデバッグおよびレッドチームツールとして Prompting4Debugging (P4D) を提案します。
安全機構を備えた SD モデルの新たな脆弱性を発見する際の P4D ツールの有効性を実証します。
特に、我々の結果は、当初「安全」と考えられていた既存の安全なプロンプトベンチマークのプロンプトの約半数が、概念の削除、ネガティブプロンプト、安全性ガイダンスなど、導入されている多くの安全メカニズムをバイパスするために実際に操作できることを示しています。
私たちの調査結果は、包括的なテストがなければ、限られた安全なプロンプトベンチマークでの評価が、テキストから画像へのモデルに対する誤った安全感につながる可能性があることを示唆しています。

要約(オリジナル)

Text-to-image diffusion models, e.g. Stable Diffusion (SD), lately have shown remarkable ability in high-quality content generation, and become one of the representatives for the recent wave of transformative AI. Nevertheless, such advance comes with an intensifying concern about the misuse of this generative technology, especially for producing copyrighted or NSFW (i.e. not safe for work) images. Although efforts have been made to filter inappropriate images/prompts or remove undesirable concepts/styles via model fine-tuning, the reliability of these safety mechanisms against diversified problematic prompts remains largely unexplored. In this work, we propose Prompting4Debugging (P4D) as a debugging and red-teaming tool that automatically finds problematic prompts for diffusion models to test the reliability of a deployed safety mechanism. We demonstrate the efficacy of our P4D tool in uncovering new vulnerabilities of SD models with safety mechanisms. Particularly, our result shows that around half of prompts in existing safe prompting benchmarks which were originally considered ‘safe’ can actually be manipulated to bypass many deployed safety mechanisms, including concept removal, negative prompt, and safety guidance. Our findings suggest that, without comprehensive testing, the evaluations on limited safe prompting benchmarks can lead to a false sense of safety for text-to-image models.

arxiv情報

著者 Zhi-Yi Chin,Chieh-Ming Jiang,Ching-Chun Huang,Pin-Yu Chen,Wei-Chen Chiu
発行日 2023-09-12 11:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク