SteerDiff: Steering towards Safe Text-to-Image Diffusion Models

要約

T2I(Text-to-image)拡散モデルは、テキストを正確に配置した高品質な画像を生成できることで注目されている。しかし、これらのモデルは、不適切なコンテンツを生成するために悪用される可能性もある。既存の安全対策は、一般的にテキスト分類器やControlNetのようなアプローチに依存していますが、多くの場合不十分です。従来のテキスト分類器は、大規模なラベル付きデータセットに依存しており、言い換えによって簡単に回避されてしまう。拡散モデルの規模が拡大するにつれて、これらのセーフガードを微調整することはますます難しくなり、柔軟性に欠けている。最近のレッドチーム攻撃研究は、不適切なコンテンツの生成を防ぐための新しいパラダイムの必要性をさらに強調している。本論文では、ユーザー入力と拡散モデルの仲介役として機能するように設計された軽量アダプターモジュールであるSteerDiffを紹介し、ユーザビリティにほとんど影響を与えることなく、生成された画像が倫理的かつ安全な基準に準拠していることを保証する。SteerDiffは、テキスト埋め込み空間内の不適切な概念を識別し操作することで、有害な出力からモデルを遠ざける。我々のアプローチの有効性を評価するために、様々な概念学習解除タスクにおいて広範な実験を行った。さらに、SteerDiffの頑健性を評価するために、複数のレッドチーム戦略に対してベンチマークを行う。最後に、概念忘却タスクにおけるSteerDiffの可能性を探求し、テキスト条件付き画像生成におけるSteerDiffの汎用性を実証する。

要約(オリジナル)

Text-to-image (T2I) diffusion models have drawn attention for their ability to generate high-quality images with precise text alignment. However, these models can also be misused to produce inappropriate content. Existing safety measures, which typically rely on text classifiers or ControlNet-like approaches, are often insufficient. Traditional text classifiers rely on large-scale labeled datasets and can be easily bypassed by rephrasing. As diffusion models continue to scale, fine-tuning these safeguards becomes increasingly challenging and lacks flexibility. Recent red-teaming attack researches further underscore the need for a new paradigm to prevent the generation of inappropriate content. In this paper, we introduce SteerDiff, a lightweight adaptor module designed to act as an intermediary between user input and the diffusion model, ensuring that generated images adhere to ethical and safety standards with little to no impact on usability. SteerDiff identifies and manipulates inappropriate concepts within the text embedding space to guide the model away from harmful outputs. We conduct extensive experiments across various concept unlearning tasks to evaluate the effectiveness of our approach. Furthermore, we benchmark SteerDiff against multiple red-teaming strategies to assess its robustness. Finally, we explore the potential of SteerDiff for concept forgetting tasks, demonstrating its versatility in text-conditioned image generation.

arxiv情報

著者 Hongxiang Zhang,Yifeng He,Hao Chen
発行日 2024-10-03 17:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク