要約
拡散モデル (DM) は、テキストから画像への生成において目覚ましい成功を収めていますが、有害なコンテンツや著作権侵害の生成の可能性など、安全上のリスクももたらします。
概念消去としても知られる機械のアンラーニングの手法は、これらのリスクに対処するために開発されました。
ただし、これらの技術は依然として敵対的プロンプト攻撃に対して脆弱であり、DM が学習後に消去されるはずの概念 (ヌードなど) を含む望ましくない画像を再生成する可能性があります。
この研究は、敵対的トレーニング (AT) の原理を機械の非学習に統合することで概念消去の堅牢性を強化することを目的としており、その結果、AdvUnlearn と呼ばれる堅牢な非学習フレームワークが実現します。
ただし、これを効果的かつ効率的に達成することは非常に困難です。
まず、AT を単純に実装すると、DM の学習後の画像生成品質が損なわれることがわかりました。
これに対処するために、追加の保持セットに対するユーティリティ保持正則化を開発し、AdvUnlearn での概念消去の堅牢性とモデルのユーティリティの間のトレードオフを最適化します。
さらに、UNet と比較してテキスト エンコーダが堅牢化に適したモジュールであると特定し、非学習の有効性を確保します。
そして、取得されたテキスト エンコーダーは、さまざまな DM タイプに対するプラグ アンド プレイの堅牢なアンラーナーとして機能できます。
経験的に、私たちは、ヌード、オブジェクト、スタイル概念の消去など、さまざまな DM 学習解除シナリオにわたって AdvUnlearn の堅牢性の利点を実証するために広範な実験を実行しました。
堅牢性に加えて、AdvUnlearn はモデルの実用性とのバランスの取れたトレードオフも実現します。
私たちの知る限り、これは AT を介してロバストな DM のアンラーニングを体系的に調査した最初の研究であり、概念消去におけるロバスト性を無視する既存の方法とは一線を画しています。
コードはhttps://github.com/OPTML-Group/AdvUnlearnから入手できます。
要約(オリジナル)
Diffusion models (DMs) have achieved remarkable success in text-to-image generation, but they also pose safety risks, such as the potential generation of harmful content and copyright violations. The techniques of machine unlearning, also known as concept erasing, have been developed to address these risks. However, these techniques remain vulnerable to adversarial prompt attacks, which can prompt DMs post-unlearning to regenerate undesired images containing concepts (such as nudity) meant to be erased. This work aims to enhance the robustness of concept erasing by integrating the principle of adversarial training (AT) into machine unlearning, resulting in the robust unlearning framework referred to as AdvUnlearn. However, achieving this effectively and efficiently is highly nontrivial. First, we find that a straightforward implementation of AT compromises DMs’ image generation quality post-unlearning. To address this, we develop a utility-retaining regularization on an additional retain set, optimizing the trade-off between concept erasure robustness and model utility in AdvUnlearn. Moreover, we identify the text encoder as a more suitable module for robustification compared to UNet, ensuring unlearning effectiveness. And the acquired text encoder can serve as a plug-and-play robust unlearner for various DM types. Empirically, we perform extensive experiments to demonstrate the robustness advantage of AdvUnlearn across various DM unlearning scenarios, including the erasure of nudity, objects, and style concepts. In addition to robustness, AdvUnlearn also achieves a balanced tradeoff with model utility. To our knowledge, this is the first work to systematically explore robust DM unlearning through AT, setting it apart from existing methods that overlook robustness in concept erasing. Codes are available at: https://github.com/OPTML-Group/AdvUnlearn
arxiv情報
著者 |
Yimeng Zhang,Xin Chen,Jinghan Jia,Yihua Zhang,Chongyu Fan,Jiancheng Liu,Mingyi Hong,Ke Ding,Sijia Liu |
発行日 |
2024-10-09 16:12:40+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google