要約
クラス アクティベーション マップ (CAM) に基づくメソッドは、特徴マップの線形結合を顕著性マップとして使用することにより、畳み込みニューラル ネットワークの予測を解釈するシンプルなメカニズムを提供します。
対照的に、マスキング ベースの手法では、画像空間内で顕著性マップを直接最適化するか、追加データで別のネットワークをトレーニングすることによって顕著性マップを学習します。
この作業では、CAM ベースのアプローチとマスキング ベースのアプローチのアイデアを組み合わせた Opti-CAM を紹介します。
私たちの顕著性マップは特徴マップの線形結合であり、特定のクラスのマスクされた画像のロジットが最大化されるように重みが画像ごとに最適化されます。
また、アトリビューション手法の最も一般的な 2 つの評価指標における根本的な欠陥も修正しました。
いくつかのデータセットにおいて、最も関連性の高い分類メトリクスによると、Opti-CAM は他の CAM ベースのアプローチを大幅に上回っています。
私たちは、ローカリゼーションと分類子の解釈可能性が必ずしも一致しているわけではないことを裏付ける経験的証拠を提供します。
要約(オリジナル)
Methods based on class activation maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.
arxiv情報
著者 | Hanwei Zhang,Felipe Torres,Ronan Sicre,Yannis Avrithis,Stephane Ayache |
発行日 | 2024-04-05 16:50:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google