Finite Gaussian Neurons: Defending against adversarial attacks by making neural networks say ‘I don’t know’

要約

2014 年以来、人工ニューラル ネットワークは敵対的攻撃に対して脆弱であることが知られています。敵対的攻撃では、人間が認識できないほど入力に変更を加えることで、ネットワークをだまして間違った出力や無意味な出力を生成する可能性があります。
敵対的な攻撃に対する防御策が提案されていますが、通常、新しいニューラル ネットワークを最初から再トレーニングする必要があり、これはコストのかかる作業です。
この研究では、人工ニューラル ネットワーク用の新しいニューロン アーキテクチャである有限ガウス ニューロン (FGN) を紹介します。
私の作品の目的は次のとおりです。 – 既存のモデルを有限ガウス ニューロン アーキテクチャに簡単に変換し、 – 実際のデータ上での既存のモデルの動作を維持しながら、 – 敵対的な攻撃に対する耐性を提供します。
変換および再学習された有限ガウス ニューラル ネットワーク (FGNN) は、古典的なニューラル ネットワークと比較して、ランダム化された高速勾配符号法の敵対的画像に対する予測において常に低い信頼性を持っている (つまり、過信していない) 一方で、高い精度と信頼性を維持していることを示します。
実際の MNIST 画像。
敵対的な攻撃から保護する有限ガウス ニューロンの能力をさらに検証するために、ランダム化された画像と敵対的な画像の両方に対する FGN の動作をベイジアン ニューラル ネットワークの動作と比較し、2 つのアーキテクチャの動作がどのように異なるかを示します。
最後に、より複雑な SPEECHCOMMANDS タスクで、より強力な Carlini-Wagner および Projected Gradient Descent 攻撃に対してテストすることで、FGN モデルの限界をいくつか示します。

要約(オリジナル)

Since 2014, artificial neural networks have been known to be vulnerable to adversarial attacks, which can fool the network into producing wrong or nonsensical outputs by making humanly imperceptible alterations to inputs. While defenses against adversarial attacks have been proposed, they usually involve retraining a new neural network from scratch, a costly task. In this work, I introduce the Finite Gaussian Neuron (FGN), a novel neuron architecture for artificial neural networks. My works aims to: – easily convert existing models to Finite Gaussian Neuron architecture, – while preserving the existing model’s behavior on real data, – and offering resistance against adversarial attacks. I show that converted and retrained Finite Gaussian Neural Networks (FGNN) always have lower confidence (i.e., are not overconfident) in their predictions over randomized and Fast Gradient Sign Method adversarial images when compared to classical neural networks, while maintaining high accuracy and confidence over real MNIST images. To further validate the capacity of Finite Gaussian Neurons to protect from adversarial attacks, I compare the behavior of FGNs to that of Bayesian Neural Networks against both randomized and adversarial images, and show how the behavior of the two architectures differs. Finally I show some limitations of the FGN models by testing them on the more complex SPEECHCOMMANDS task, against the stronger Carlini-Wagner and Projected Gradient Descent adversarial attacks.

arxiv情報

著者 Felix Grezes
発行日 2023-06-13 14:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク