TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

要約

テキストから画像への拡散モデルの最近の進歩により、フォトリアリスティックな画像生成が可能になりますが、NSFW画像などの悪意のあるコンテンツを生成するリスクもあります。
リスクを緩和するために、特定の概念を学ぶためにモデルを促進するために概念消去方法が研究されています。
ただし、現在の研究は、モデルの通常の生成能力を維持しながら、プロンプト(たとえば、比phor的な表現や敵対的なプロンプトなど)に暗黙的に埋め込まれた悪意のある概念を完全に消去するのに苦労しています。
この課題に対処するために、我々の研究はTRCEを提案し、2段階の概念消去戦略を使用して、信頼できる消去と知識の保存の間の効果的なトレードオフを達成します。
第一に、TRCEは、テキストプロンプトに暗黙的に埋め込まれた悪意のあるセマンティクスを消去することから始めます。
重要なマッピング目標(つまり、[eot]埋め込み)を識別することにより、クロスアテンションレイヤーを最適化して、悪意のあるプロンプトを文脈的に類似したプロンプトにマッピングしますが、安全な概念を使用します。
このステップにより、モデルが除去プロセス中の悪意のあるセマンティクスの影響を過度に影響することを防ぎます。
これに続いて、拡散モデルのサンプリング軌跡の決定論的特性を考慮すると、TRCEは、対照的な学習を通じて安全な方向から安全でない方向から離れて、早期の除去予測をさらに導き、悪意のあるコンテンツの生成をさらに回避します。
最後に、複数の悪意のある概念の消去ベンチマークでTRCEの包括的な評価を実施します。結果は、モデルの元の生成能力をよりよく維持しながら、悪意のある概念の消去における有効性を示しています。
このコードは、http://github.com/ddgoodgood/trceで入手できます。
注意:このホワイトペーパーには、攻撃資料を含む可能性のあるモデル生成コンテンツが含まれています。

要約(オリジナル)

Recent advances in text-to-image diffusion models enable photorealistic image generation, but they also risk producing malicious content, such as NSFW images. To mitigate risk, concept erasure methods are studied to facilitate the model to unlearn specific concepts. However, current studies struggle to fully erase malicious concepts implicitly embedded in prompts (e.g., metaphorical expressions or adversarial prompts) while preserving the model’s normal generation capability. To address this challenge, our study proposes TRCE, using a two-stage concept erasure strategy to achieve an effective trade-off between reliable erasure and knowledge preservation. Firstly, TRCE starts by erasing the malicious semantics implicitly embedded in textual prompts. By identifying a critical mapping objective(i.e., the [EoT] embedding), we optimize the cross-attention layers to map malicious prompts to contextually similar prompts but with safe concepts. This step prevents the model from being overly influenced by malicious semantics during the denoising process. Following this, considering the deterministic properties of the sampling trajectory of the diffusion model, TRCE further steers the early denoising prediction toward the safe direction and away from the unsafe one through contrastive learning, thus further avoiding the generation of malicious content. Finally, we conduct comprehensive evaluations of TRCE on multiple malicious concept erasure benchmarks, and the results demonstrate its effectiveness in erasing malicious concepts while better preserving the model’s original generation ability. The code is available at: http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated content that may contain offensive material.

arxiv情報

著者 Ruidong Chen,Honglin Guo,Lanjun Wang,Chenyu Zhang,Weizhi Nie,An-An Liu
発行日 2025-03-10 14:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク