Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts

要約

拡散ベースのコンテンツ生成の急速な進歩に伴い、モデルの誤用の可能性を防ぐために、事前トレーニングされた拡散モデル (DM) から有害な概念や著作権で保護された概念を取り除くために多大な努力が払われています。
ただし、DM がリリース前に適切に学習されていない場合でも、悪意のある微調整によってこのプロセスが侵害され、DM が未学習の概念を再学習する可能性があることが観察されています。
これは、DM に保持されている特定の無害な概念 (例: 「肌」) が未学習の概念 (例: 「ヌード」) に関連しており、微調整によって再学習が容易になることが部分的に原因です。
これに対処するために、DM でのメタアンラーニングを提案します。
直感的には、メタ未学習 DM は、そのまま使用すると未学習 DM と同様に動作するはずです。
さらに、メタ未学習DMが未学習概念に対して悪意のある微調整を受けると、その中に保持されている関連する良性の概念が自己破壊を引き起こし、未学習概念の再学習が妨げられます。
私たちのメタアンラーニングフレームワークは、ほとんどの既存のアンラーニング手法と互換性があり、実装が簡単なメタ目標を追加するだけで済みます。
広範なアブレーション研究によって裏付けられた安定拡散モデル (SD-v1-4 および SDXL) からのメタアンラーニング概念に関する実証実験を通じて、私たちのアプローチを検証します。
私たちのコードは https://github.com/sail-sg/Meta-Unlearning で入手できます。

要約(オリジナル)

With the rapid progress of diffusion-based content generation, significant efforts are being made to unlearn harmful or copyrighted concepts from pretrained diffusion models (DMs) to prevent potential model misuse. However, it is observed that even when DMs are properly unlearned before release, malicious finetuning can compromise this process, causing DMs to relearn the unlearned concepts. This occurs partly because certain benign concepts (e.g., ‘skin’) retained in DMs are related to the unlearned ones (e.g., ‘nudity’), facilitating their relearning via finetuning. To address this, we propose meta-unlearning on DMs. Intuitively, a meta-unlearned DM should behave like an unlearned DM when used as is; moreover, if the meta-unlearned DM undergoes malicious finetuning on unlearned concepts, the related benign concepts retained within it will be triggered to self-destruct, hindering the relearning of unlearned concepts. Our meta-unlearning framework is compatible with most existing unlearning methods, requiring only the addition of an easy-to-implement meta objective. We validate our approach through empirical experiments on meta-unlearning concepts from Stable Diffusion models (SD-v1-4 and SDXL), supported by extensive ablation studies. Our code is available at https://github.com/sail-sg/Meta-Unlearning.

arxiv情報

著者 Hongcheng Gao,Tianyu Pang,Chao Du,Taihang Hu,Zhijie Deng,Min Lin
発行日 2024-10-16 17:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG パーマリンク