Foiling Explanations in Deep Neural Networks

要約

ディープ ニューラル ネットワーク (DNN) は、過去 10 年間で多くの分野に大きな影響を与えてきました。
しかし、多くの問題に対して優れたパフォーマンスを示しているにもかかわらず、それらのブラックボックスの性質は、説明可能性に関して依然として重大な課題をもたらします.
実際、説明可能な人工知能 (XAI) はいくつかの分野で重要であり、その答えだけでは (その答えがどのように導き出されたのかという推論がなければ) ほとんど価値がありません。
この論文では、画像ベースの DNN の説明方法の厄介な特性を明らかにします。入力画像に小さな視覚的変更を加えることにより (ネットワークの出力にはほとんど影響を与えません)、進化戦略を使用して説明を任意に操作できることを示します。
私たちの新しいアルゴリズムである AttaXAI は、XAI アルゴリズムに対するモデルにとらわれない敵対的攻撃であり、分類器の出力ロジットと説明マップへのアクセスのみが必要です。
これらの弱い仮定により、実世界のモデルとデータが関係する場合、私たちのアプローチは非常に有用になります。
VGG16-CIFAR100、VGG16-ImageNet、MobileNet-CIFAR100、および Inception-v3-ImageNet の 4 つの異なる事前トレーニング済み深層学習モデルを使用して、2 つのベンチマーク データセット (CIFAR100 と ImageNet) でのメソッドのパフォーマンスを比較します。
XAI メソッドは、勾配やその他のモデル内部を使用せずに操作できることがわかりました。
私たちの新しいアルゴリズムは、XAI メソッドが特定の説明マップを出力するように、人間の目には知覚できない方法で画像を操作することに成功しています。
私たちの知る限り、これはブラックボックス設定での最初の方法であり、説明可能性が望まれる、必要とされる、または法的に義務付けられている場合に大きな価値があると考えています。

要約(オリジナル)

Deep neural networks (DNNs) have greatly impacted numerous fields over the past decade. Yet despite exhibiting superb performance over many problems, their black-box nature still poses a significant challenge with respect to explainability. Indeed, explainable artificial intelligence (XAI) is crucial in several fields, wherein the answer alone — sans a reasoning of how said answer was derived — is of little value. This paper uncovers a troubling property of explanation methods for image-based DNNs: by making small visual changes to the input image — hardly influencing the network’s output — we demonstrate how explanations may be arbitrarily manipulated through the use of evolution strategies. Our novel algorithm, AttaXAI, a model-agnostic, adversarial attack on XAI algorithms, only requires access to the output logits of a classifier and to the explanation map; these weak assumptions render our approach highly useful where real-world models and data are concerned. We compare our method’s performance on two benchmark datasets — CIFAR100 and ImageNet — using four different pretrained deep-learning models: VGG16-CIFAR100, VGG16-ImageNet, MobileNet-CIFAR100, and Inception-v3-ImageNet. We find that the XAI methods can be manipulated without the use of gradients or other model internals. Our novel algorithm is successfully able to manipulate an image in a manner imperceptible to the human eye, such that the XAI method outputs a specific explanation map. To our knowledge, this is the first such method in a black-box setting, and we believe it has significant value where explainability is desired, required, or legally mandatory.

arxiv情報

著者 Snir Vitrack Tamam,Raz Lapid,Moshe Sipper
発行日 2023-03-24 10:01:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク