要約
データ ポイズニング攻撃は、トレーニング データを操作して、トレーニング時に予期しない動作を機械学習モデルに導入します。
大規模なトレーニング データセットを含むテキストから画像への生成モデルの場合、ポイズニング攻撃に関する現在の理解では、攻撃を成功させるにはトレーニング パイプラインに何百万ものポイズン サンプルを注入する必要があることが示唆されています。
この論文では、ポイズニング攻撃が生成モデル上で成功する可能性があることを示します。
これらのモデルでは、概念ごとのトレーニング データが非常に限られているため、個々のプロンプトに応答するモデルの能力を標的とする、プロンプト固有のポイズニング攻撃に対して脆弱になることが観察されています。
最適化されたプロンプト固有のポイズニング攻撃である Nightshade を紹介します。この攻撃では、毒サンプルが、テキスト プロンプトが一致する無害な画像と視覚的に同一に見えます。
ナス毒サンプルも効力に関して最適化されており、100 未満の毒サンプルでは安定拡散 SDXL プロンプトが破損する可能性があります。
Nightshade の毒の効果は関連する概念に「浸透」し、複数の攻撃を 1 つのプロンプトで組み合わせることができます。
驚くべきことに、適度な数の Nightshade 攻撃がテキストから画像への生成モデルの一般的な機能を不安定にし、意味のある画像を生成する機能を事実上無効にする可能性があることを示しました。
最後に、オプトアウト/クロール拒否の指示を無視する Web スクレイパーに対するコンテンツ作成者の最後の防御手段として、Nightshade および同様のツールの使用を提案し、モデルトレーナーとコンテンツ作成者に起こり得る影響について説明します。
要約(オリジナル)
Data poisoning attacks manipulate training data to introduce unexpected behaviors into machine learning models at training time. For text-to-image generative models with massive training datasets, current understanding of poisoning attacks suggests that a successful attack would require injecting millions of poison samples into their training pipeline. In this paper, we show that poisoning attacks can be successful on generative models. We observe that training data per concept can be quite limited in these models, making them vulnerable to prompt-specific poisoning attacks, which target a model’s ability to respond to individual prompts. We introduce Nightshade, an optimized prompt-specific poisoning attack where poison samples look visually identical to benign images with matching text prompts. Nightshade poison samples are also optimized for potency and can corrupt an Stable Diffusion SDXL prompt in <100 poison samples. Nightshade poison effects 'bleed through' to related concepts, and multiple attacks can composed together in a single prompt. Surprisingly, we show that a moderate number of Nightshade attacks can destabilize general features in a text-to-image generative model, effectively disabling its ability to generate meaningful images. Finally, we propose the use of Nightshade and similar tools as a last defense for content creators against web scrapers that ignore opt-out/do-not-crawl directives, and discuss possible implications for model trainers and content creators.
arxiv情報
著者 | Shawn Shan,Wenxin Ding,Josephine Passananti,Stanley Wu,Haitao Zheng,Ben Y. Zhao |
発行日 | 2024-04-29 17:23:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google