SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation

要約

拡散モデルの最近の進歩により、高品質の画像やビデオを生成する能力が大幅に向上しましたが、安全でないコンテンツが作成されるリスクも増加しました。
安全な生成のための既存の非学習/編集ベースの方法は、モデルから有害な概念を削除しますが、いくつかの課題に直面しています。 (1) トレーニングなしで有害な概念を即座に削除することはできません。
(2) それらの安全な生成能力は、収集されたトレーニング データに依存します。
(3) モデルの重みを変更するため、有害な概念に関係のないコンテンツの品質が低下する危険があります。
これらに対処するために、モデルの重みを変更しない、安全な T2I および T2V のためのトレーニング不要の新しいアプローチである SAFREE を提案します。
具体的には、テキスト埋め込み空間内の一連の有害な概念に対応する部分空間を検出し、プロンプト埋め込みをこの部分空間から遠ざけるように誘導し、それによって意図されたセマンティクスを維持しながら有害なコンテンツを除外します。
フィルタリングの毒性と安全な概念の維持の間のトレードオフのバランスをとるために、SAFREE には、フィルタリングされた埋め込みを適用するときにノイズ除去ステップを動的に調整する新しい自己検証型フィルタリング メカニズムが組み込まれています。
さらに、拡散潜在空間内に適応型再注意メカニズムを組み込んで、有害な概念に関連する特徴の影響をピクセルレベルで選択的に低減します。
最終的に、SAFREE は一貫した安全性チェックを保証し、出力の忠実性、品質、安全性を維持します。
SAFREE は、トレーニング不要のベースラインと比較して、T2I 生成で安全でないコンテンツを抑制する SOTA パフォーマンスを実現し、高品質の画像を維持しながら、対象となるコンセプトを効果的にフィルタリングします。
また、トレーニングベースの方法と比較して優れた結果も示しています。
SAFREE をさまざまな T2I バックボーンおよび T2V タスクに拡張し、その柔軟性と汎用性を示します。
SAFREE は、安全なビジュアル生成を保証するための堅牢で適応性のある保護手段を提供します。

要約(オリジナル)

Recent advances in diffusion models have significantly enhanced their ability to generate high-quality images and videos, but they have also increased the risk of producing unsafe content. Existing unlearning/editing-based methods for safe generation remove harmful concepts from models but face several challenges: (1) They cannot instantly remove harmful concepts without training. (2) Their safe generation capabilities depend on collected training data. (3) They alter model weights, risking degradation in quality for content unrelated to toxic concepts. To address these, we propose SAFREE, a novel, training-free approach for safe T2I and T2V, that does not alter the model’s weights. Specifically, we detect a subspace corresponding to a set of toxic concepts in the text embedding space and steer prompt embeddings away from this subspace, thereby filtering out harmful content while preserving intended semantics. To balance the trade-off between filtering toxicity and preserving safe concepts, SAFREE incorporates a novel self-validating filtering mechanism that dynamically adjusts the denoising steps when applying the filtered embeddings. Additionally, we incorporate adaptive re-attention mechanisms within the diffusion latent space to selectively diminish the influence of features related to toxic concepts at the pixel level. In the end, SAFREE ensures coherent safety checking, preserving the fidelity, quality, and safety of the output. SAFREE achieves SOTA performance in suppressing unsafe content in T2I generation compared to training-free baselines and effectively filters targeted concepts while maintaining high-quality images. It also shows competitive results against training-based methods. We extend SAFREE to various T2I backbones and T2V tasks, showcasing its flexibility and generalization. SAFREE provides a robust and adaptable safeguard for ensuring safe visual generation.

arxiv情報

著者 Jaehong Yoon,Shoubin Yu,Vaidehi Patil,Huaxiu Yao,Mohit Bansal
発行日 2024-10-16 17:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク