要約
モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心の高まりを引き付け、課題に対処するためにさまざまなアプローチが出現しています。
ただし、これらの方法がターゲットの概念をどの程度徹底的に消去するかは不明のままです。
拡散モデルにおける消去メカニズムの2つの概念モデルを提案することから始めます。(i)ターゲット概念を生成する可能性を減らし、(ii)モデルの内部ガイダンスメカニズムに干渉する。
概念がモデルから真に消去されたかどうかを徹底的に評価するために、一連の独立した評価を紹介します。
私たちの評価フレームワークには、敵対的な攻撃、新しい調査手法、および消去された概念の代わりにモデルの代替世代の分析が含まれます。
我々の結果は、副作用を最小限に抑え、敵対的なプロンプトへの堅牢性を維持することとの緊張に光を当てました。
概して、私たちの研究は、拡散モデルにおける消去のための包括的な評価の重要性を強調しています。
要約(オリジナル)
Concept erasure, the ability to selectively prevent a model from generating specific concepts, has attracted growing interest, with various approaches emerging to address the challenge. However, it remains unclear how thoroughly these methods erase the target concept. We begin by proposing two conceptual models for the erasure mechanism in diffusion models: (i) reducing the likelihood of generating the target concept, and (ii) interfering with the model’s internal guidance mechanisms. To thoroughly assess whether a concept has been truly erased from the model, we introduce a suite of independent evaluations. Our evaluation framework includes adversarial attacks, novel probing techniques, and analysis of the model’s alternative generations in place of the erased concept. Our results shed light on the tension between minimizing side effects and maintaining robustness to adversarial prompts. Broadly, our work underlines the importance of comprehensive evaluation for erasure in diffusion models.
arxiv情報
著者 | Kevin Lu,Nicky Kriplani,Rohit Gandikota,Minh Pham,David Bau,Chinmay Hegde,Niv Cohen |
発行日 | 2025-05-27 17:43:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google