Metrics for saliency map evaluation of deep learning explanation methods

要約

深層学習モデルのブラックボックスの性質により、CNNの視覚的説明のためのソリューションが最近開発されています。
ユーザー調査のコストが高いことを考えると、これらのさまざまな方法を比較および評価するには、メトリックが必要です。
この論文では、Petsiuk et al。によって提案された曲線下の削除領域(DAUC)と曲線下の挿入領域(IAUC)のメトリックを批判的に分析します。
(2018)。
これらのメトリックは、Grad-CAMやRISEなどの一般的な方法で生成された顕著性マップの忠実度を評価するために設計されました。
まず、スコアのランク付けのみが考慮されるため、顕著性マップによって指定された実際の顕著性スコア値が無視されることを示します。
これは、スコアのランキングを変更せずに顕著性マップの外観が大幅に変化する可能性があるため、これらのメトリックだけでは不十分であることを示しています。
次に、DAUCとIAUCの計算中に、モデルにはトレーニング分布から外れた画像が表示され、説明されているモデルの動作の信頼性が低下する可能性があると主張します。
DAUC / IAUCを補完するために、これまで研究されていなかった2つの特性である、スパース性と説明方法のキャリブレーションを定量化する新しいメトリックを提案します。
最後に、このペーパーで調査したメトリックについて一般的な意見を述べ、ユーザー調査でそれらを評価する方法について説明します。

要約(オリジナル)

Due to the black-box nature of deep learning models, there is a recent development of solutions for visual explanations of CNNs. Given the high cost of user studies, metrics are necessary to compare and evaluate these different methods. In this paper, we critically analyze the Deletion Area Under Curve (DAUC) and Insertion Area Under Curve (IAUC) metrics proposed by Petsiuk et al. (2018). These metrics were designed to evaluate the faithfulness of saliency maps generated by generic methods such as Grad-CAM or RISE. First, we show that the actual saliency score values given by the saliency map are ignored as only the ranking of the scores is taken into account. This shows that these metrics are insufficient by themselves, as the visual appearance of a saliency map can change significantly without the ranking of the scores being modified. Secondly, we argue that during the computation of DAUC and IAUC, the model is presented with images that are out of the training distribution which might lead to an unreliable behavior of the model being explained. To complement DAUC/IAUC, we propose new metrics that quantify the sparsity and the calibration of explanation methods, two previously unstudied properties. Finally, we give general remarks about the metrics studied in this paper and discuss how to evaluate them in a user study.

arxiv情報

著者 Tristan Gomez,Thomas Fréour,Harold Mouchère
発行日 2022-06-22 12:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク