Salient Conditional Diffusion for Defending Against Backdoor Attacks

要約

バックドア攻撃に対する最先端の防御である新しいアルゴリズム、Salient Conditional Diffusion (Sancdifi) を提案します。
Sancdifi は、ノイズ除去拡散確率モデル (DDPM) を使用して画像をノイズで劣化させ、学習した逆拡散を使用して画像を復元します。
重要なのは、顕著性マップベースのマスクを計算して拡散を調整し、DDPM によって最も顕著なピクセルでより強力な拡散を可能にすることです。
その結果、Sancdifi は、バックドア攻撃によって汚染されたデータのトリガーを拡散するのに非常に効果的です。
同時に、クリーンなデータに適用すると、顕著な特徴を確実に回復します。
このパフォーマンスは、トロイの木馬ネットワークのモデル パラメータへのアクセスを必要とせずに達成されます。つまり、Sancdifi はブラック ボックス防御として機能します。

要約(オリジナル)

We propose a novel algorithm, Salient Conditional Diffusion (Sancdifi), a state-of-the-art defense against backdoor attacks. Sancdifi uses a denoising diffusion probabilistic model (DDPM) to degrade an image with noise and then recover said image using the learned reverse diffusion. Critically, we compute saliency map-based masks to condition our diffusion, allowing for stronger diffusion on the most salient pixels by the DDPM. As a result, Sancdifi is highly effective at diffusing out triggers in data poisoned by backdoor attacks. At the same time, it reliably recovers salient features when applied to clean data. This performance is achieved without requiring access to the model parameters of the Trojan network, meaning Sancdifi operates as a black-box defense.

arxiv情報

著者 Brandon B. May,N. Joseph Tatro,Piyush Kumar,Nathan Shnidman
発行日 2023-01-31 18:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, I.2 パーマリンク