Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models

要約

テキストからイメージ(T2I)拡散モデルは、高品質の画像の生成において顕著な進歩を遂げましたが、有害または誤解を招くコンテンツの生成に関する人々の懸念も高めています。
ゼロからの再訓練を必要とせずに不要な概念を消去するために広範なアプローチが提案されていますが、通常の生成タスクでパフォーマンスを誤って劣化させています。
この作業では、全体的なパフォーマンスを維持しながら、T2I拡散モデルで正確な概念除去を可能にする新しいフレームワークである解釈が非アクティブ化(ITD)を提案します。
ITDは、まずスパースオートエンコーダー(SAE)を使用して、各概念を複数の機能の組み合わせとして解釈します。
ターゲットの概念に関連付けられた特定の機能を永続的に非アクティブ化することにより、SAEをターゲット概念を含むかどうかを識別するゼロショット分類器としてSAEを再利用し、拡散モデルの選択的概念の消去を可能にします。
さらに、ITDを簡単に拡張して、さらなるトレーニングを必要とせずに複数の概念を消去できることを実証します。
有名人のアイデンティティ、芸術的スタイル、および明示的なコンテンツを介した包括的な実験は、通常の概念を妨げることなくターゲットの概念を排除する際のITDの有効性を示しています。
さらに、ITDは、コンテンツフィルターを回避するように設計された敵対的なプロンプトに対しても堅牢です。
コードは、https://github.com/nansirun/interpret-then-deactivateで入手できます。

要約(オリジナル)

Text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images but also raise people’s concerns about generating harmful or misleading content. While extensive approaches have been proposed to erase unwanted concepts without requiring retraining from scratch, they inadvertently degrade performance on normal generation tasks. In this work, we propose Interpret then Deactivate (ItD), a novel framework to enable precise concept removal in T2I diffusion models while preserving overall performance. ItD first employs a sparse autoencoder (SAE) to interpret each concept as a combination of multiple features. By permanently deactivating the specific features associated with target concepts, we repurpose SAE as a zero-shot classifier that identifies whether the input prompt includes target concepts, allowing selective concept erasure in diffusion models. Moreover, we demonstrate that ItD can be easily extended to erase multiple concepts without requiring further training. Comprehensive experiments across celebrity identities, artistic styles, and explicit content demonstrate ItD’s effectiveness in eliminating targeted concepts without interfering with normal concept generation. Additionally, ItD is also robust against adversarial prompts designed to circumvent content filters. Code is available at: https://github.com/NANSirun/Interpret-then-deactivate.

arxiv情報

著者 Zhihua Tian,Sirun Nan,Ming Xu,Shengfang Zhai,Wenjie Qu,Jian Liu,Kui Ren,Ruoxi Jia,Jiaheng Zhang
発行日 2025-03-12 14:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク