VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models

要約

拡散モデル (DM) は、反復的なノイズの追加とノイズ除去から可逆的な破損プロセスを学習する最先端の生成モデルです。
これらは、テキストから画像への条件付き生成など、多くの生成 AI アプリケーションのバックボーンです。
しかし、最近の研究では、基本的な無条件 DM (DDPM や DDIM など) は、モデル入力に悪意を持って埋め込まれたパターンによって引き起こされる出力操作攻撃の一種であるバックドア インジェクションに対して脆弱であることが示されています。
このペーパーでは、DM の現在のバックドア分析の範囲を拡大するための統合バックドア攻撃フレームワーク (VillanDiffusion) を紹介します。
私たちのフレームワークは、主流の無条件および条件付き DM (ノイズ除去ベースおよびスコアベース)、および全体的な評価のためのトレーニング不要のさまざまなサンプラーをカバーしています。
実験の結果、当社の統合フレームワークにより、さまざまな DM 構成のバックドア分析が容易になり、DM に対するキャプションベースのバックドア攻撃について新たな洞察が得られることがわかりました。
私たちのコードは GitHub で入手できます: \url{https://github.com/IBM/villandiffusion}

要約(オリジナル)

Diffusion Models (DMs) are state-of-the-art generative models that learn a reversible corruption process from iterative noise addition and denoising. They are the backbone of many generative AI applications, such as text-to-image conditional generation. However, recent studies have shown that basic unconditional DMs (e.g., DDPM and DDIM) are vulnerable to backdoor injection, a type of output manipulation attack triggered by a maliciously embedded pattern at model input. This paper presents a unified backdoor attack framework (VillanDiffusion) to expand the current scope of backdoor analysis for DMs. Our framework covers mainstream unconditional and conditional DMs (denoising-based and score-based) and various training-free samplers for holistic evaluations. Experiments show that our unified framework facilitates the backdoor analysis of different DM configurations and provides new insights into caption-based backdoor attacks on DMs. Our code is available on GitHub: \url{https://github.com/IBM/villandiffusion}

arxiv情報

著者 Sheng-Yen Chou,Pin-Yu Chen,Tsung-Yi Ho
発行日 2023-12-29 10:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク