Resisting Adversarial Attacks in Deep Neural Networks using Diverse Decision Boundaries

要約

ディープ ラーニング (DL) システムのセキュリティは、困難なタスクを解決するためのパフォーマンスが絶えず向上しているため、いくつかのアプリケーションに展開されているため、非常に重要な研究分野です。
圧倒的な可能性にもかかわらず、深層学習システムは巧妙に細工された敵対的な例に対して脆弱であり、人間の目には感知できない可能性がありますが、モデルの誤分類につながる可能性があります。
アンサンブルベースの技術に対する敵対的摂動に対する保護は、より強力な敵に対して脆弱であることが示されているか、エンドツーエンドの評価が欠けていることが示されています。
この論文では、元のモデルに関して多様な決定境界を持つ防御側モデルを構築する、新しいアンサンブルベースのソリューションの開発を試みます。
(1) Split-and-Shuffle と呼ばれる方法による入力の変換、および (2) Contrast-Significant-Features と呼ばれる方法による有意な特徴の制限によって構築された分類器の集合は、
敵対的な攻撃。これにより、敵対的な例が元のモデルから同じクラスをターゲットとする防御モデルに転送される可能性が減少します。
提案されたアンサンブルベースの防御の堅牢性を実証するために、標準的な画像分類データセット、つまり MNIST、CIFAR-10、および CIFAR-100 を使用した広範な実験を最先端の敵対的攻撃に対して提示します。
また、アンサンブル内のすべてのモデルを同時にターゲットとする強力な敵が存在する場合の堅牢性も評価します。
提案された方法論の全体的なパフォーマンスを推定するために、全体的な偽陽性と偽陰性の結果が提供されています。

要約(オリジナル)

The security of deep learning (DL) systems is an extremely important field of study as they are being deployed in several applications due to their ever-improving performance to solve challenging tasks. Despite overwhelming promises, the deep learning systems are vulnerable to crafted adversarial examples, which may be imperceptible to the human eye, but can lead the model to misclassify. Protections against adversarial perturbations on ensemble-based techniques have either been shown to be vulnerable to stronger adversaries or shown to lack an end-to-end evaluation. In this paper, we attempt to develop a new ensemble-based solution that constructs defender models with diverse decision boundaries with respect to the original model. The ensemble of classifiers constructed by (1) transformation of the input by a method called Split-and-Shuffle, and (2) restricting the significant features by a method called Contrast-Significant-Features are shown to result in diverse gradients with respect to adversarial attacks, which reduces the chance of transferring adversarial examples from the original to the defender model targeting the same class. We present extensive experimentations using standard image classification datasets, namely MNIST, CIFAR-10 and CIFAR-100 against state-of-the-art adversarial attacks to demonstrate the robustness of the proposed ensemble-based defense. We also evaluate the robustness in the presence of a stronger adversary targeting all the models within the ensemble simultaneously. Results for the overall false positives and false negatives have been furnished to estimate the overall performance of the proposed methodology.

arxiv情報

著者 Manaar Alam,Shubhajit Datta,Debdeep Mukhopadhyay,Arijit Mondal,Partha Pratim Chakrabarti
発行日 2022-08-18 08:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク