Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models

要約

拡散モデル (DM) は今日最も高度な生成モデルの 1 つとみなされていますが、最近の研究では、拡散モデルはバックドア攻撃に対して脆弱であることが示唆されています。バックドア攻撃は、特定の入力パターンとモデルの動作の間に隠れた関連性を確立し、操作されたもので望ましくないアクションを引き起こし、モデルの完全性を損なうものです。
入力。
この脆弱性は、モデル所有者への風評被害や有害なコンテンツの拡散など、重大なリスクを引き起こします。
バックドア攻撃の脅威を軽減するために、バックドアの検出とモデルの修復に関するいくつかの調査が行われています。
しかし、これまでの研究では、最先端の攻撃手法によってバックドアが施されたモデルを確実に浄化することができず、この分野はあまり調査されていません。
このギャップを埋めるために、DM 向けに特別に設計された新しい 2 段階のバックドア防御フレームワークである Diff-Cleanse を紹介します。
第 1 段階では、新しいトリガー反転手法を使用してトリガーを再構築し、バックドアを検出します。第 2 段階では、構造的枝刈り手法を使用してバックドアを排除します。
私たちは、幅広いハイパーパラメーター設定を使用した 3 つの既存のバックドア攻撃方法によって攻撃される数百の DM でフレームワークを評価しました。
広範な実験により、Diff-Cleanse はほぼ 100% の検出精度を達成し、バックドアの影響を効果的に軽減し、最小限の妥協でモデルの良性のパフォーマンスを維持することが実証されています。
私たちのコードは https://github.com/shymuel/diff-cleanse で入手できます。

要約(オリジナル)

Diffusion models (DMs) are regarded as one of the most advanced generative models today, yet recent studies suggest that they are vulnerable to backdoor attacks, which establish hidden associations between particular input patterns and model behaviors, compromising model integrity by causing undesirable actions with manipulated inputs. This vulnerability poses substantial risks, including reputational damage to model owners and the dissemination of harmful content. To mitigate the threat of backdoor attacks, there have been some investigations on backdoor detection and model repair. However, previous work fails to reliably purify the models backdoored by state-of-the-art attack methods, rendering the field much underexplored. To bridge this gap, we introduce Diff-Cleanse, a novel two-stage backdoor defense framework specifically designed for DMs. The first stage employs a novel trigger inversion technique to reconstruct the trigger and detect the backdoor, and the second stage utilizes a structural pruning method to eliminate the backdoor. We evaluate our framework on hundreds of DMs that are attacked by three existing backdoor attack methods with a wide range of hyperparameter settings. Extensive experiments demonstrate that Diff-Cleanse achieves nearly 100\% detection accuracy and effectively mitigates backdoor impacts, preserving the model’s benign performance with minimal compromise. Our code is avaliable at https://github.com/shymuel/diff-cleanse.

arxiv情報

著者 Jiang Hao,Xiao Jin,Hu Xiaoguang,Chen Tianyou,Zhao Jiajia
発行日 2024-08-22 14:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク