ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning

要約

大規模なテキストから画像への拡散モデルは、優れた画像生成機能を実証していますが、安全でないコンテンツの生成、著作権侵害、社会的偏見の永続化といった悪用の可能性について大きな懸念があります。
最近、テキストから画像への生成コミュニティは、事前トレーニングされたモデルから不要な概念を編集または学習解除することで、これらの懸念に対処し始めました。
ただし、これらの方法では多くの場合、大量のデータを必要とする非効率な微調整が必​​要になったり、さまざまな形式のトークンの再マッピングが利用されたりするため、敵対的なジェイルブレイクを受けやすくなります。
この論文では、シンプルで効果的なトレーニング不要のアプローチ、ConceptPrune を紹介します。このアプローチでは、最初に、望ましくない概念を生成する原因となっている事前トレーニング済みモデル内の重要な領域を特定し、それによって重み枝刈りによる直接的な概念のアンラーニングを促進します。
芸術的スタイル、ヌード、オブジェクトの消去、ジェンダーのバイアス軽減など、さまざまな概念にわたる実験では、総重量の約 0.12% というごく一部を枝刈りすることでターゲットの概念を効率的に消去できることが実証され、複数の概念の消去とさまざまな白色光に対する堅牢性が可能になります。
ボックス攻撃とブラックボックス攻撃。

要約(オリジナル)

While large-scale text-to-image diffusion models have demonstrated impressive image-generation capabilities, there are significant concerns about their potential misuse for generating unsafe content, violating copyright, and perpetuating societal biases. Recently, the text-to-image generation community has begun addressing these concerns by editing or unlearning undesired concepts from pre-trained models. However, these methods often involve data-intensive and inefficient fine-tuning or utilize various forms of token remapping, rendering them susceptible to adversarial jailbreaks. In this paper, we present a simple and effective training-free approach, ConceptPrune, wherein we first identify critical regions within pre-trained models responsible for generating undesirable concepts, thereby facilitating straightforward concept unlearning via weight pruning. Experiments across a range of concepts including artistic styles, nudity, object erasure, and gender debiasing demonstrate that target concepts can be efficiently erased by pruning a tiny fraction, approximately 0.12% of total weights, enabling multi-concept erasure and robustness against various white-box and black-box adversarial attacks.

arxiv情報

著者 Ruchika Chavhan,Da Li,Timothy Hospedales
発行日 2024-05-29 16:19:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク