A Vulnerability of Attribution Methods Using Pre-Softmax Scores


分類子として機能する畳み込みニューラル ネットワークの出力の説明を提供するために使用される属性メソッドのカテゴリに関連する脆弱性について説明します。


We discuss a vulnerability involving a category of attribution methods used to provide explanations for the outputs of convolutional neural networks working as classifiers. It is known that this type of networks are vulnerable to adversarial attacks, in which imperceptible perturbations of the input may alter the outputs of the model. In contrast, here we focus on effects that small modifications in the model may cause on the attribution method without altering the model outputs.


著者 Miguel Lerma,Mirtha Lucas
発行日 2023-10-25 16:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, I.2.m パーマリンク