Trace and Detect Adversarial Attacks on CNNs using Feature Response Maps

要約

畳み込みニューラル ネットワーク (CNN) に対する敵対的攻撃の存在は、そのようなモデルが深刻なアプリケーションに適しているかどうかを疑問視しています。
攻撃は入力画像を操作して、人間の観察者には正常に見える一方で、誤分類が引き起こされるようにします。したがって、攻撃は簡単には検出できません。
別の文脈では、CNN 隠れ層の逆伝播アクティベーション (特定の入力に対する「特徴応答」) は、出力の計算中に CNN が「見ている」ものを人間の「デバッガー」が視覚化するのに役立ちました。
この作業では、攻撃を防ぐための敵対的な例の新しい検出方法を提案します。
これは、特徴応答における敵対的摂動を追跡することによって行い、平均的な局所空間エントロピーを使用した自動検出を可能にします。
この方法は元のネットワーク アーキテクチャを変更せず、人間が完全に解釈できます。
実験により、ImageNet でトレーニングされた大規模モデルに対する最先端の攻撃に対する私たちのアプローチの有効性が確認されました。

要約(オリジナル)

The existence of adversarial attacks on convolutional neural networks (CNN) questions the fitness of such models for serious applications. The attacks manipulate an input image such that misclassification is evoked while still looking normal to a human observer — they are thus not easily detectable. In a different context, backpropagated activations of CNN hidden layers — ‘feature responses’ to a given input — have been helpful to visualize for a human ‘debugger’ what the CNN ‘looks at’ while computing its output. In this work, we propose a novel detection method for adversarial examples to prevent attacks. We do so by tracking adversarial perturbations in feature responses, allowing for automatic detection using average local spatial entropy. The method does not alter the original network architecture and is fully human-interpretable. Experiments confirm the validity of our approach for state-of-the-art attacks on large-scale models trained on ImageNet.

arxiv情報

著者 Mohammadreza Amirian,Friedhelm Schwenker,Thilo Stadelmann
発行日 2022-08-24 11:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク