Universal Prompt Optimizer for Safe Text-to-Image Generation


Text-to-Image (T2I) モデルは、テキスト プロンプトに基づいて画像を生成する際に優れたパフォーマンスを示しています。
したがって、\textit{ブラックボックス シナリオでの安全な T2I 生成のための最初のユニバーサル プロンプト オプティマイザーを提案します}。
まず、GPT-3.5 Turbo によって毒性とクリーンなプロンプトのペアからなるデータセットを構築します。
実験の結果、私たちのアプローチは、テキストの配置に重大な影響を与えることなく、さまざまな T2I モデルが不適切な画像を生成する可能性を効果的に低減できることがわかりました。


Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, \textit{we propose the first universal prompt optimizer for safe T2I generation in black-box scenario}. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance.


著者 Zongyu Wu,Hongcheng Gao,Yueze Wang,Xiang Zhang,Suhang Wang
発行日 2024-02-16 18:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク