On The Coherence of Quantitative Evaluation of Visual Explanations

要約

近年、視覚的な説明を通じてニューラル ネットワークの予測を正当化する方法の開発が増加しています。
これらの説明は通常、入力画像の各ピクセルに、そのピクセルがラベルの予測にどの程度関連しているかを表す顕著性 (または関連性) 値を割り当てるヒートマップの形式をとります。
この発展を補完して、そのような説明の「良さ」を評価するための評価方法が提案されています。
一方で、これらの手法の一部は合成データセットに依存しています。
ただし、これには、より現実的な設定での適用性に関する保証が限定されるという弱点が生じます。
一方で、客観的な評価のために指標に依存する手法もあります。
ただし、これらの評価方法の一部が相互にどの程度機能するかは不確かです。
これを考慮して、ImageNet-1k 検証セットのサブセットについて包括的な調査を実施し、一連の評価方法に従って一般的に使用されるさまざまな説明方法を評価します。
私たちは、評価方法の信頼性と説明の特徴が評価方法に及ぼす影響を調査する手段として、研究された評価方法の健全性チェックで研究を補完します。
私たちの研究結果は、検討されている評価方法の一部によって提供される採点に一貫性が欠けていることを示唆しています。
さらに、我々は説明のいくつかの特徴を特定しました。
スパース性は、パフォーマンスに大きな影響を与える可能性があります。

要約(オリジナル)

Recent years have shown an increased development of methods for justifying the predictions of neural networks through visual explanations. These explanations usually take the form of heatmaps which assign a saliency (or relevance) value to each pixel of the input image that expresses how relevant the pixel is for the prediction of a label. Complementing this development, evaluation methods have been proposed to assess the ‘goodness’ of such explanations. On the one hand, some of these methods rely on synthetic datasets. However, this introduces the weakness of having limited guarantees regarding their applicability on more realistic settings. On the other hand, some methods rely on metrics for objective evaluation. However the level to which some of these evaluation methods perform with respect to each other is uncertain. Taking this into account, we conduct a comprehensive study on a subset of the ImageNet-1k validation set where we evaluate a number of different commonly-used explanation methods following a set of evaluation methods. We complement our study with sanity checks on the studied evaluation methods as a means to investigate their reliability and the impact of characteristics of the explanations on the evaluation methods. Results of our study suggest that there is a lack of coherency on the grading provided by some of the considered evaluation methods. Moreover, we have identified some characteristics of the explanations, e.g. sparsity, which can have a significant effect on the performance.

arxiv情報

著者 Benjamin Vandersmissen,Jose Oramas
発行日 2024-02-19 10:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク