How to Backdoor Diffusion Models?

要約

タイトル:拡散モデルにバックドア攻撃を行う方法は?

要約:
– 拡散モデルは、進行性ノイズの付加と除去による前方および逆方向の学習プロセスに基づいて訓練された、最新のディープラーニングエンパワードの生成モデルです。
– 拡散モデルの限界と潜在的なリスクをよりよく理解するために、この論文は、拡散モデルがバックドア攻撃に対してどのように強固であるかについての最初の調査を示しています。
– 具体的には、バックドア実装のためにモデルトレーニング中に犠牲を払われた拡散プロセスをエンジニアリングする新しい攻撃フレームワークであるBadDiffusionを提案します。
– 推論段階では、バックドアを持つ拡散モデルは、通常のデータ入力に対して不正なジェネレーターのように振る舞い、実装されたトリガーシグナルを受け取った際に設計されたターゲットアウトカムを誤って生成します。 このようなリスクは、問題のモデルに構築された下流のタスクやアプリケーションにとって重大なリスクとなる可能性があります。
– BadDiffusionは、さまざまなバックドア攻撃設定に関する大規模な実験により、高い有用性とターゲット特異性を持つ犠牲となる拡散モデルを常に導くことができることを示しています。
– さらにWorse、BadDiffusionは、クリーンな事前トレーニングされた拡散モデルの調整だけで、費用対効果が高くなる可能性があります。
– リスク軽減のためのいくつかの可能な対策も探索しています。結果は、拡散モデルの潜在的なリスクと悪用に関する注意を喚起しています。我々のコードはhttps://github.com/IBM/BadDiffusionで利用可能です。

要約(オリジナル)

Diffusion models are state-of-the-art deep learning empowered generative models that are trained based on the principle of learning forward and reverse diffusion processes via progressive noise-addition and denoising. To gain a better understanding of the limitations and potential risks, this paper presents the first study on the robustness of diffusion models against backdoor attacks. Specifically, we propose BadDiffusion, a novel attack framework that engineers compromised diffusion processes during model training for backdoor implantation. At the inference stage, the backdoored diffusion model will behave just like an untampered generator for regular data inputs, while falsely generating some targeted outcome designed by the bad actor upon receiving the implanted trigger signal. Such a critical risk can be dreadful for downstream tasks and applications built upon the problematic model. Our extensive experiments on various backdoor attack settings show that BadDiffusion can consistently lead to compromised diffusion models with high utility and target specificity. Even worse, BadDiffusion can be made cost-effective by simply finetuning a clean pre-trained diffusion model to implant backdoors. We also explore some possible countermeasures for risk mitigation. Our results call attention to potential risks and possible misuse of diffusion models. Our code is available on https://github.com/IBM/BadDiffusion.

arxiv情報

著者 Sheng-Yen Chou,Pin-Yu Chen,Tsung-Yi Ho
発行日 2023-04-21 08:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク