Denoising Autoencoder-based Defensive Distillation as an Adversarial Robustness Algorithm

要約

敵対的攻撃は、ディープ ニューラル ネットワーク (DNN) の堅牢性を著しく脅かします。
複数の防御方法が採用されているにもかかわらず、攻撃者が最初のトレーニング データに介入する毒攻撃に対して脆弱です。
このような敵対的な攻撃から DNN を防御するために、この研究では、防御蒸留メカニズムとノイズ除去オートエンコーダー (DAE) を組み合わせた新しい方法を提案します。
この手法は、トレーニング データ内の有害な敵対的入力を見つけて再構築することにより、蒸留されたモデルの有害な攻撃に対する感度を低下させようとします。
提案された方法のパフォーマンスを評価するために、慎重に作成された敵対的サンプルを初期トレーニング データに追加しました。
私たちの実験結果は、DNNの回復力の強化も考慮しながら、私たちの方法が有毒な入力を正常に識別して再構築したことを示しています。
提案されたアプローチは、データ ポイズニング攻撃が懸念されるさまざまなアプリケーションで、DNN に強力で堅牢な防御メカニズムを提供します。
したがって、有毒な敵対的攻撃によってもたらされる防御的蒸留技術の制限は克服されます。

要約(オリジナル)

Adversarial attacks significantly threaten the robustness of deep neural networks (DNNs). Despite the multiple defensive methods employed, they are nevertheless vulnerable to poison attacks, where attackers meddle with the initial training data. In order to defend DNNs against such adversarial attacks, this work proposes a novel method that combines the defensive distillation mechanism with a denoising autoencoder (DAE). This technique tries to lower the sensitivity of the distilled model to poison attacks by spotting and reconstructing poisonous adversarial inputs in the training data. We added carefully created adversarial samples to the initial training data to assess the proposed method’s performance. Our experimental findings demonstrate that our method successfully identified and reconstructed the poisonous inputs while also considering enhancing the DNN’s resilience. The proposed approach provides a potent and robust defense mechanism for DNNs in various applications where data poisoning attacks are a concern. Thus, the defensive distillation technique’s limitation posed by poisonous adversarial attacks is overcome.

arxiv情報

著者 Bakary Badjie,José Cecílio,António Casimiro
発行日 2023-03-28 11:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.CR, cs.LG, F.4.1 パーマリンク