DiffDefense: Defending against Adversarial Attacks via Diffusion Models

要約

この論文では、分類器自体に変更を加えることなく、拡散モデルを利用して機械学習分類器を敵対的な攻撃から保護する新しい再構成方法を紹介します。
機械学習モデルはわずかな入力変動に対して敏感であるため、敵対的な攻撃に対して脆弱になります。
拡散ベースの手法は、リバースプロセスが遅いため、通常、敵対的防御には無視されますが、この論文では、私たちが提案する手法が、クリーンな精度、速度、プラグアンドプレイの互換性を維持しながら、敵対的脅威に対する堅牢性を提供することを実証します。
コードは https://github.com/HondamunigePrasannaSilva/DiffDefence にあります。

要約(オリジナル)

This paper presents a novel reconstruction method that leverages Diffusion Models to protect machine learning classifiers against adversarial attacks, all without requiring any modifications to the classifiers themselves. The susceptibility of machine learning models to minor input perturbations renders them vulnerable to adversarial attacks. While diffusion-based methods are typically disregarded for adversarial defense due to their slow reverse process, this paper demonstrates that our proposed method offers robustness against adversarial threats while preserving clean accuracy, speed, and plug-and-play compatibility. Code at: https://github.com/HondamunigePrasannaSilva/DiffDefence.

arxiv情報

著者 Hondamunige Prasanna Silva,Lorenzo Seidenari,Alberto Del Bimbo
発行日 2023-09-07 13:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク