A Learning Paradigm for Interpretable Gradients

要約

この論文では、顕著性マップを使用して畳み込みネットワークの解釈可能性を研究します。
クラス アクティベーション マップ (CAM) に基づくほとんどのアプローチは、完全に接続された層からの情報とバックプロパゲーションの変形による勾配を組み合わせます。
ただし、勾配にはノイズが多く、推論時により良い視覚化を得るためにガイド付きバックプロパゲーションのような代替手段が提案されていることがよく理解されています。
この研究では、解釈可能性のための勾配の品質を向上させるための新しいトレーニング アプローチを紹介します。
特に、標準的な逆伝播によって得られる入力画像に関する勾配が、誘導逆伝播によって得られる勾配と同様になるように、正則化損失を導入します。
結果として生じる勾配は定性的にノイズが少なく、いくつかの解釈可能性手法を使用して、さまざまなネットワークの解釈可能性特性が定量的に向上することがわかりました。

要約(オリジナル)

This paper studies interpretability of convolutional networks by means of saliency maps. Most approaches based on Class Activation Maps (CAM) combine information from fully connected layers and gradient through variants of backpropagation. However, it is well understood that gradients are noisy and alternatives like guided backpropagation have been proposed to obtain better visualization at inference. In this work, we present a novel training approach to improve the quality of gradients for interpretability. In particular, we introduce a regularization loss such that the gradient with respect to the input image obtained by standard backpropagation is similar to the gradient obtained by guided backpropagation. We find that the resulting gradient is qualitatively less noisy and improves quantitatively the interpretability properties of different networks, using several interpretability methods.

arxiv情報

著者 Felipe Torres Figueroa,Hanwei Zhang,Ronan Sicre,Yannis Avrithis,Stephane Ayache
発行日 2024-04-23 13:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク