How to Squeeze An Explanation Out of Your Model

要約

深層学習モデルは、さまざまなタスクを実行する際の信頼性により、現在広く使用されています。
ただし、通常、決定の背後にある理由が提供されていないため、特に生体認証、セキュリティ、ヘルスケアなどのより機密性の高い分野では、これが重大な欠点となります。
解釈可能性を提供するために最も一般的に使用されるアプローチは、勾配逆伝播モデルに基づいて、画像上の関心領域の視覚的注意ヒートマップを作成します。
これは実行可能なアプローチですが、現在の方法は画像設定とデフォルト/標準の深層学習モデルを対象としているため、ビデオ/マルチモーダル設定とカスタム アーキテクチャで機能するには大幅な適応が必要です。
この論文では、視覚的注意のヒートマップを作成する Squeeze and Excitation (SE) ブロックの新しい使用法に基づいて、モデルに依存しない解釈可能性のアプローチを提案します。
モデルの分類層の前に SE ブロックを含めることで、SE ブロックの重要なコンポーネントの 1 つである SE ベクトル操作を介して最も影響力のある特徴を取得できます。
私たちの結果は、この新しい SE ベースの解釈可能性が、画像およびビデオ/マルチモーダル設定のさまざまなモデル、つまり、CelebA を使用した顔の特徴の生体認証と、アクティブ スピーカー検出データセットを使用した行動生体認証に適用できることを示しています。
さらに、私たちの提案は元のタスクに対するモデルのパフォーマンスを損なうことはなく、最先端のオブジェクトデータセットにおける現在の解釈可能性アプローチと競合する結果をもたらし、生体認証コンテキストとは別にさまざまなデータで実行するその堅牢性を強調しています。

要約(オリジナル)

Deep learning models are widely used nowadays for their reliability in performing various tasks. However, they do not typically provide the reasoning behind their decision, which is a significant drawback, particularly for more sensitive areas such as biometrics, security and healthcare. The most commonly used approaches to provide interpretability create visual attention heatmaps of regions of interest on an image based on models gradient backpropagation. Although this is a viable approach, current methods are targeted toward image settings and default/standard deep learning models, meaning that they require significant adaptations to work on video/multi-modal settings and custom architectures. This paper proposes an approach for interpretability that is model-agnostic, based on a novel use of the Squeeze and Excitation (SE) block that creates visual attention heatmaps. By including an SE block prior to the classification layer of any model, we are able to retrieve the most influential features via SE vector manipulation, one of the key components of the SE block. Our results show that this new SE-based interpretability can be applied to various models in image and video/multi-modal settings, namely biometrics of facial features with CelebA and behavioral biometrics using Active Speaker Detection datasets. Furthermore, our proposal does not compromise model performance toward the original task, and has competitive results with current interpretability approaches in state-of-the-art object datasets, highlighting its robustness to perform in varying data aside from the biometric context.

arxiv情報

著者 Tiago Roxo,Joana C. Costa,Pedro R. M. Inácio,Hugo Proença
発行日 2024-12-06 15:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク