On The Coherence of Quantitative Evaluation of Visual Explanations

要約

近年、ニューラルネットワークの予測結果を視覚的に説明する手法の開発が進んでいます。これらの説明は、通常、入力画像の各画素に、その画素がラベルの予測にどれだけ関連しているかを表す顕著性(または関連性)値を割り当てるヒートマップの形をとっている。 また、このような説明の「良さ」を評価するための手法も提案されている。一方、これらの方法の中には、合成データセットに依存するものがある。しかし、この場合、より現実的な設定での適用性が限定的に保証されるという弱点がある。一方、客観的な評価のための指標に依存する方法もある。しかし、これらの評価方法の中には、互いにどのようなレベルにあるのかが不明なものもある。 この点を考慮し、我々はImageNet-1k検証セットのサブセットで包括的な研究を行い、評価方法のセットに従って、多くの異なる一般的に使用されている説明方法を評価する。また、評価手法の信頼性と説明の特徴が評価手法に与える影響を調査する手段として、調査した評価手法のサニティチェックを行い、研究を補完した。 本研究の結果、検討された評価方法のいくつかによって提供される評点には一貫性がないことが示唆された。さらに、説明の特性(スパース性など)が性能に大きな影響を与えることを明らかにした。

要約(オリジナル)

Recent years have shown an increased development of methods for justifying the predictions of neural networks through visual explanations. These explanations usually take the form of heatmaps which assign a saliency (or relevance) value to each pixel of the input image that expresses how relevant the pixel is for the prediction of a label. Complementing this development, evaluation methods have been proposed to assess the ‘goodness’ of such explanations. On the one hand, some of these methods rely on synthetic datasets. However, this introduces the weakness of having limited guarantees regarding their applicability on more realistic settings. On the other hand, some methods rely on metrics for objective evaluation. However the level to which some of these evaluation methods perform with respect to each other is uncertain. Taking this into account, we conduct a comprehensive study on a subset of the ImageNet-1k validation set where we evaluate a number of different commonly-used explanation methods following a set of evaluation methods. We complement our study with sanity checks on the studied evaluation methods as a means to investigate their reliability and the impact of characteristics of the explanations on the evaluation methods. Results of our study suggest that there is a lack of coherency on the grading provided by some of the considered evaluation methods. Moreover, we have identified some characteristics of the explanations, e.g. sparsity, which can have a significant effect on the performance.

arxiv情報

著者 Benjamin Vandersmissen,Jose Oramas
発行日 2023-03-03 14:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク