Adversarial Attacks Neutralization via Data Set Randomization

要約

深層学習モデルに対する敵対的な攻撃は、その信頼性とセキュリティに深刻な脅威をもたらします。
既存の防御メカニズムは、特定の種類の攻撃に対応する範囲が狭いか、高度な攻撃に対して脆弱です。
我々は、画像ベースの分類子に焦点を当てながらも、引用されたカテゴリに関しては一般的な新しい防御メカニズムを提案します。
それはハイパースペース投影に基づいています。
特に、私たちのソリューションは、元のデータセットを新しいデータセットに擬似ランダムに投影します。
提案された防御メカニズムは、多様な投影データセットのセットを作成します。各投影データセットは、特定の分類器をトレーニングするために使用され、その結果、異なる決定境界を持つ異なるトレーニング済み分類器が生成されます。
テスト中に、入力をテストするための分類子がランダムに選択されます。
私たちのアプローチは、正当な入力よりも精度を犠牲にすることはありません。
防御メカニズムの詳細と徹底的な特徴付けを提供するだけでなく、4 つの最適化ベースの敵対的攻撃 (PGD、FGSM、IGSM、および C\&W) とそれらを MNIST でテストする生成的敵対的攻撃を使用する概念実証も提供します。
データセット。
私たちの実験結果は、私たちのソリューションが敵対的攻撃に対する深層学習モデルの堅牢性を高め、攻撃の成功率を最適化攻撃の場合は少なくとも 89%、生成攻撃の場合は 78% 大幅に低下させることを示しています。
また、使用されたハイパースペースの数と防御メカニズムの有効性との関係も分析します。
予想どおり、この 2 つは正の相関関係があり、必要なレベルのセキュリティを強制するための調整が容易なパラメータを提供します。
当社のソリューションの汎用性とスケーラビリティ、およびさまざまな攻撃シナリオへの適応性は、ディープラーニング ネットワークに対する敵対的攻撃に対する堅牢な防御を提供すること以外に、達成された優れた結果と相まって、この分野での将来の研究の基礎ともなります。

要約(オリジナル)

Adversarial attacks on deep-learning models pose a serious threat to their reliability and security. Existing defense mechanisms are narrow addressing a specific type of attack or being vulnerable to sophisticated attacks. We propose a new defense mechanism that, while being focused on image-based classifiers, is general with respect to the cited category. It is rooted on hyperspace projection. In particular, our solution provides a pseudo-random projection of the original dataset into a new dataset. The proposed defense mechanism creates a set of diverse projected datasets, where each projected dataset is used to train a specific classifier, resulting in different trained classifiers with different decision boundaries. During testing, it randomly selects a classifier to test the input. Our approach does not sacrifice accuracy over legitimate input. Other than detailing and providing a thorough characterization of our defense mechanism, we also provide a proof of concept of using four optimization-based adversarial attacks (PGD, FGSM, IGSM, and C\&W) and a generative adversarial attack testing them on the MNIST dataset. Our experimental results show that our solution increases the robustness of deep learning models against adversarial attacks and significantly reduces the attack success rate by at least 89% for optimization attacks and 78% for generative attacks. We also analyze the relationship between the number of used hyperspaces and the efficacy of the defense mechanism. As expected, the two are positively correlated, offering an easy-to-tune parameter to enforce the desired level of security. The generality and scalability of our solution and adaptability to different attack scenarios, combined with the excellent achieved results, other than providing a robust defense against adversarial attacks on deep learning networks, also lay the groundwork for future research in the field.

arxiv情報

著者 Mouna Rabhi,Roberto Di Pietro
発行日 2023-06-21 10:17:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク