Graph-based methods coupled with specific distributional distances for adversarial attack detection

要約

人工ニューラル ネットワークは、注意深く撹乱された入力によってだまされる傾向があり、ひどい誤分類を引き起こします。
これらの \textit{敵対的} 攻撃は、広範な研究の焦点となっています。
同様に、それらを検出して防御する方法についても多くの研究が行われています。
グラフの観点から敵対的攻撃を検出および解釈する新しいアプローチを紹介します。
入力画像に対して、層ごとの関連性伝播アルゴリズム \cite{bach15} を使用して、関連するスパース グラフを計算します。
具体的には、関連性の値が最も高いニューラル ネットワークのエッジのみを保持します。
次に、グラフから 3 つの量が計算され、トレーニング セットから計算された量と比較されます。
比較の結果、画像が良性か敵対的かに分類されます。
比較を行うために、2 つの分類方法が導入されます。1) ノードの次数に適用される Wasserstein 距離に基づく明示的な式と、2) ロジスティック回帰です。
どちらの分類方法でも強力な結果が得られ、敵対的攻撃をグラフに基づいて解釈することは価値があると考えられます。

要約(オリジナル)

Artificial neural networks are prone to being fooled by carefully perturbed inputs which cause an egregious misclassification. These \textit{adversarial} attacks have been the focus of extensive research. Likewise, there has been an abundance of research in ways to detect and defend against them. We introduce a novel approach of detection and interpretation of adversarial attacks from a graph perspective. For an input image, we compute an associated sparse graph using the layer-wise relevance propagation algorithm \cite{bach15}. Specifically, we only keep edges of the neural network with the highest relevance values. Three quantities are then computed from the graph which are then compared against those computed from the training set. The result of the comparison is a classification of the image as benign or adversarial. To make the comparison, two classification methods are introduced: 1) an explicit formula based on Wasserstein distance applied to the degree of node and 2) a logistic regression. Both classification methods produce strong results which lead us to believe that a graph-based interpretation of adversarial attacks is valuable.

arxiv情報

著者 Dwight Nwaigwe,Lucrezia Carboni,Martial Mermillod,Sophie Achard,Michel Dojat
発行日 2023-10-10 14:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク