Opti-CAM: Optimizing saliency maps for interpretability


クラス活性化マップ (CAM) に基づく方法は、特徴マップの線形結合を顕著性マップとして使用することにより、畳み込みニューラル ネットワークの予測を解釈するための単純なメカニズムを提供します。
この作業では、CAM ベースのアプローチとマスキング ベースのアプローチのアイデアを組み合わせた Opti-CAM を紹介します。
また、アトリビューション手法の最も一般的な 2 つの評価指標の根本的な欠陥も修正します。
いくつかのデータセットでは、Opti-CAM は、最も関連性の高い分類メトリックに従って、他の CAM ベースのアプローチよりも大幅に優れています。


Methods based on class activation maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.


著者 Hanwei Zhang,Felipe Torres,Ronan Sicre,Yannis Avrithis,Stephane Ayache
発行日 2023-01-17 16:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク