Multi-Head Explainer: A General Framework to Improve Explainability in CNNs and Transformers

要約

本研究では、畳み込みニューラルネットワーク(CNN)とTransformerベースのモデルの説明可能性と精度の両方を向上させる、汎用的でモジュール化されたフレームワークであるMulti-Head Explainer(MHEX)を紹介する。MHEXは、タスクに関連する特徴を動的にハイライトするAttention Gate、ターゲットクラスに関連するきめ細かな詳細を捉えるように初期層をガイドするDeep Supervision、包括的な顕著性マップを生成するために洗練されたローカル表現とグローバル表現を統合するEquivalent Matrixの3つのコアコンポーネントから構成される。我々のアプローチは優れた互換性を示し、ResNetのような既存の残差ネットワークやBERTのようなトランスフォーマーアーキテクチャに最小限の修正で容易に統合することを可能にする。医療画像とテキスト分類のベンチマークデータセットに対する広範な実験により、MHEXは分類精度を向上させるだけでなく、非常に解釈可能で詳細な顕著性スコアを生成することが示された。

要約(オリジナル)

In this study, we introduce the Multi-Head Explainer (MHEX), a versatile and modular framework that enhances both the explainability and accuracy of Convolutional Neural Networks (CNNs) and Transformer-based models. MHEX consists of three core components: an Attention Gate that dynamically highlights task-relevant features, Deep Supervision that guides early layers to capture fine-grained details pertinent to the target class, and an Equivalent Matrix that unifies refined local and global representations to generate comprehensive saliency maps. Our approach demonstrates superior compatibility, enabling effortless integration into existing residual networks like ResNet and Transformer architectures such as BERT with minimal modifications. Extensive experiments on benchmark datasets in medical imaging and text classification show that MHEX not only improves classification accuracy but also produces highly interpretable and detailed saliency scores.

arxiv情報

著者 Bohang Sun,Pietro Liò
発行日 2025-01-02 15:47:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク