Adversarial Detection by Approximation of Ensemble Boundary

要約

2 クラスのパターン認識問題を解決するディープ ニューラル ネットワーク (DNN) のアンサンブルに対して、敵対的攻撃を検出する新しい方法が提案されています。
アンサンブルは、ブール関数を近似できるウォルシュ係数を使用して結合され、それによってアンサンブル決定境界の複雑さを制御します。
この論文の仮説は、曲率の高い決定境界では敵対的な摂動が検出されるが、決定境界の曲率が変化するため、クリーンな画像と比較してウォルシュ係数によって異なる方法で近似されるというものです。
クリーンな画像と敵対的な画像の間のウォルシュ係数近似の違いを観察することにより、攻撃の伝達可能性が検出に使用される可能性があることが実験的に示されています。
さらに、決定境界を近似することは、DNN の学習特性と転送可能性の特性を理解するのに役立つ可能性があります。
ここでの実験では画像を使用していますが、2 クラスのアンサンブル決定境界をモデル化するという提案されたアプローチは、原理的にはあらゆるアプリケーション分野に適用できます。
Walsh 係数を使用してブール関数を近似するコード: https://doi.org/10.24433/CO.3695905.v1

要約(オリジナル)

A new method of detecting adversarial attacks is proposed for an ensemble of Deep Neural Networks (DNNs) solving two-class pattern recognition problems. The ensemble is combined using Walsh coefficients which are capable of approximating Boolean functions and thereby controlling the complexity of the ensemble decision boundary. The hypothesis in this paper is that decision boundaries with high curvature allow adversarial perturbations to be found, but change the curvature of the decision boundary, which is then approximated in a different way by Walsh coefficients compared to the clean images. By observing the difference in Walsh coefficient approximation between clean and adversarial images, it is shown experimentally that transferability of attack may be used for detection. Furthermore, approximating the decision boundary may aid in understanding the learning and transferability properties of DNNs. While the experiments here use images, the proposed approach of modelling two-class ensemble decision boundaries could in principle be applied to any application area. Code for approximating Boolean functions using Walsh coefficients: https://doi.org/10.24433/CO.3695905.v1

arxiv情報

著者 T. Windeatt
発行日 2024-01-24 11:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク