Universal Prompt Optimizer for Safe Text-to-Image Generation

要約

Text-to-Image (T2I) モデルは、テキスト プロンプトに基づいて画像を生成する際に優れたパフォーマンスを示しています。
ただし、これらのモデルは、性的、嫌がらせ、違法行為の画像などの安全でないコンテンツを生成する安全でない入力に対して脆弱です。
画像チェッカー、モデルの微調整、埋め込みブロックに基づく既存の研究は、現実世界のアプリケーションでは実用的ではありません。
したがって、\textit{ブラックボックス シナリオでの安全な T2I 生成のための最初のユニバーサル プロンプト オプティマイザーを提案します}。
まず、GPT-3.5 Turbo によって毒性とクリーンなプロンプトのペアからなるデータセットを構築します。
セマンティック情報を保持しながら有害なプロンプトをクリーンなプロンプトに変換する機能をオプティマイザが持つように導くために、有害性と生成された画像のテキスト配置を測定する新しい報酬関数を設計し、近接ポリシー最適化を通じてオプティマイザをトレーニングします。
実験の結果、私たちのアプローチは、テキストの配置に重大な影響を与えることなく、さまざまな T2I モデルが不適切な画像を生成する可能性を効果的に低減できることがわかりました。
また、パフォーマンスを向上させるためのメソッドと柔軟に組み合わせることができます。

要約(オリジナル)

Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, \textit{we propose the first universal prompt optimizer for safe T2I generation in black-box scenario}. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance.

arxiv情報

著者 Zongyu Wu,Hongcheng Gao,Yueze Wang,Xiang Zhang,Suhang Wang
発行日 2024-02-16 18:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク