Robust Backdoor Attack with Visible, Semantic, Sample-Specific, and Compatible Triggers

要約

ディープ ニューラル ネットワーク (DNN) は、通常のサンプルでのパフォーマンスに影響を与えることなく、特定のトリガー パターンにさらされたときに特定の動作を示すように操作できます。
このタイプの攻撃はバックドア攻撃として知られています。
最近の研究は、視覚的なステルス性を確保するためにバックドア攻撃の目に見えないトリガーを設計することに焦点を当てています。
これらのトリガーは、モデルにおけるバックドア効果の排除または抑制を目的としたバックドア防御下でも強力な攻撃性能を実証しました。
しかし、実験的な観察を通じて、これらの慎重に設計された目に見えないトリガーは、ガウスぼやけや現実世界のシナリオにおける環境変動など、推論中の視覚的な歪みの影響を受けやすいことがわかりました。
この現象は、実際のアプリケーションにおける攻撃の有効性を著しく損ないます。
残念ながら、この問題は十分な注目を集めておらず、徹底的な調査も行われていません。
この制限に対処するために、我々は、安定拡散モデルとして知られる最近の強力な画像手法を利用する、可視、セマンティック、サンプル固有、および互換性トリガー (VSSC トリガー) と呼ばれる新しいアプローチを提案します。
このアプローチでは、テキスト トリガーがプロンプトとして利用され、無害な画像と組み合わせられます。
結果として得られる組み合わせは、事前にトレーニングされた安定した拡散モデルによって処理され、対応するセマンティック オブジェクトが生成されます。
このオブジェクトは元の画像とシームレスに統合され、ポイズニングされた画像と呼ばれる新しいリアルな画像が生成されます。
広範な実験結果と分析により、視覚的な歪みが存在する場合でも、私たちが提案する攻撃方法の有効性と堅牢性が検証されています。
私たちは、この研究で提案された新しいトリガーと、前述の問題に対処するために提案されたアイデアが、この方向のさらなる進歩に大きな将来性をもたらすと信じています。

要約(オリジナル)

Deep neural networks (DNNs) can be manipulated to exhibit specific behaviors when exposed to specific trigger patterns, without affecting their performance on normal samples. This type of attack is known as a backdoor attack. Recent research has focused on designing invisible triggers for backdoor attacks to ensure visual stealthiness. These triggers have demonstrated strong attack performance even under backdoor defense, which aims to eliminate or suppress the backdoor effect in the model. However, through experimental observations, we have noticed that these carefully designed invisible triggers are often susceptible to visual distortion during inference, such as Gaussian blurring or environmental variations in real-world scenarios. This phenomenon significantly undermines the effectiveness of attacks in practical applications. Unfortunately, this issue has not received sufficient attention and has not been thoroughly investigated. To address this limitation, we propose a novel approach called the Visible, Semantic, Sample-Specific, and Compatible trigger (VSSC-trigger), which leverages a recent powerful image method known as the stable diffusion model. In this approach, a text trigger is utilized as a prompt and combined with a benign image. The resulting combination is then processed by a pre-trained stable diffusion model, generating a corresponding semantic object. This object is seamlessly integrated with the original image, resulting in a new realistic image, referred to as the poisoned image. Extensive experimental results and analysis validate the effectiveness and robustness of our proposed attack method, even in the presence of visual distortion. We believe that the new trigger proposed in this work, along with the proposed idea to address the aforementioned issues, will have significant prospective implications for further advancements in this direction.

arxiv情報

著者 Ruotong Wang,Hongrui Chen,Zihao Zhu,Li Liu,Yong Zhang,Yanbo Fan,Baoyuan Wu
発行日 2023-06-01 15:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク