Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models

要約

Text-to-Image モデルは、著作権や Not-Safe-For-Work (NSFW) コンテンツに関連する懸念など、安全性の問題に直面します。
拡散モデルから不適切な概念を削除する方法がいくつか提案されているにもかかわらず、それらは多くの場合、不完全な削除を示し、大量のコンピューティングリソースを消費し、不用意に生成能力に損傷を与えます。
この作業では、追加の微調整を必要とせずに 3 秒でモデルを変更する新しいアプローチである Reliable and Efficient Concept Erasure (RECE) を導入します。
具体的には、RECE は閉じた形式のソリューションを効率的に活用して、未学習モデル内で消去された概念を再生成できる新しいターゲット埋め込みを導き出します。
派生エンベディングによって表される可能性のある不適切なコンテンツを軽減するために、RECE はさらに、クロスアテンション レイヤーの無害な概念とそれらを調整します。
新しい表現埋め込みの導出と消去が繰り返し実行され、不適切な概念を徹底的に消去します。
さらに、モデルの生成能力を維持するために、RECE は導出プロセス中に追加の正則化項を導入し、消去プロセス中の無関係な概念への影響を最小限に抑えます。
上記のプロセスはすべてクローズド形式で行われるため、わずか 3 秒で非常に効率的な消去が保証されます。
以前のアプローチと比較して、私たちの方法は、元の生成能力にわずかな損傷を与えながら、より効率的かつ完全な消去を実現し、レッドチームツールに対する堅牢性が向上していることを実証します。
コードは \url{https://github.com/CharlesGong12/RECE} で入手できます。

要約(オリジナル)

Text-to-image models encounter safety issues, including concerns related to copyright and Not-Safe-For-Work (NSFW) content. Despite several methods have been proposed for erasing inappropriate concepts from diffusion models, they often exhibit incomplete erasure, consume a lot of computing resources, and inadvertently damage generation ability. In this work, we introduce Reliable and Efficient Concept Erasure (RECE), a novel approach that modifies the model in 3 seconds without necessitating additional fine-tuning. Specifically, RECE efficiently leverages a closed-form solution to derive new target embeddings, which are capable of regenerating erased concepts within the unlearned model. To mitigate inappropriate content potentially represented by derived embeddings, RECE further aligns them with harmless concepts in cross-attention layers. The derivation and erasure of new representation embeddings are conducted iteratively to achieve a thorough erasure of inappropriate concepts. Besides, to preserve the model’s generation ability, RECE introduces an additional regularization term during the derivation process, resulting in minimizing the impact on unrelated concepts during the erasure process. All the processes above are in closed-form, guaranteeing extremely efficient erasure in only 3 seconds. Benchmarking against previous approaches, our method achieves more efficient and thorough erasure with minor damage to original generation ability and demonstrates enhanced robustness against red-teaming tools. Code is available at \url{https://github.com/CharlesGong12/RECE}.

arxiv情報

著者 Chao Gong,Kai Chen,Zhipeng Wei,Jingjing Chen,Yu-Gang Jiang
発行日 2024-10-28 13:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク