Improving Adversarial Attacks on Latent Diffusion Model

要約

最先端の画像生成モデルである潜在拡散モデル (LDM) に対する敵対的攻撃は、不正な画像に対する LDM の悪意のある微調整に対する効果的な保護として採用されています。
これらの攻撃は、LDM によって予測された敵対的な例のスコア関数に余分な誤差を追加することを示します。
これらの敵対的な例に基づいて微調整された LDM は、バイアスによって誤差を下げることを学習し、そこからモデルが攻撃され、バイアスのあるスコア関数を予測します。
このダイナミクスに基づいて、一貫したスコア関数エラー (ACE) による攻撃によって LDM に対する敵対的攻撃を改善することを提案します。
ACE は、予測スコア関数に追加される余分な誤差のパターンを統一します。
これにより、微調整された LDM がスコア関数を予測する際のバイアスとして同じパターンを学習するようになります。
次に、攻撃を改善するためによく練られたパターンを導入します。
私たちの手法は、LDM に対する敵対的攻撃において最先端の手法を上回ります。

要約(オリジナル)

Adversarial attacks on Latent Diffusion Model (LDM), the state-of-the-art image generative model, have been adopted as effective protection against malicious finetuning of LDM on unauthorized images. We show that these attacks add an extra error to the score function of adversarial examples predicted by LDM. LDM finetuned on these adversarial examples learns to lower the error by a bias, from which the model is attacked and predicts the score function with biases. Based on the dynamics, we propose to improve the adversarial attack on LDM by Attacking with Consistent score-function Errors (ACE). ACE unifies the pattern of the extra error added to the predicted score function. This induces the finetuned LDM to learn the same pattern as a bias in predicting the score function. We then introduce a well-crafted pattern to improve the attack. Our method outperforms state-of-the-art methods in adversarial attacks on LDM.

arxiv情報

著者 Boyang Zheng,Chumeng Liang,Xiaoyu Wu,Yan Liu
発行日 2024-03-06 18:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク