Harmonizing Feature Attributions Across Deep Learning Architectures: Enhancing Interpretability and Consistency

要約

機械学習モデルの信頼性と解釈可能性を確保することは、現実世界のアプリケーションへの展開にとって重要です。
個々の入力特徴を重要視することでモデル予測の局所的な説明を提供する特徴帰属手法が大きな注目を集めています。
この研究では、畳み込みニューラル ネットワーク (CNN) やビジョン トランスフォーマーなど、さまざまな深層学習アーキテクチャにわたる特徴属性の一般化を調査します。
私たちは、将来の検出器として特徴帰属手法を利用する実現可能性を評価し、異なるアーキテクチャを採用しながらも同じデータ分布でトレーニングされた複数のモデル間でこれらの特徴をどのように調和させることができるかを検討することを目的としています。
この調和を探ることで、私たちは特徴の属性についてより首尾一貫した楽観的な理解を深め、多様な深層学習モデルにわたる局所的な説明の一貫性を高めることを目指しています。
私たちの調査結果は、基盤となるアーキテクチャに関係なく、調和された機能帰属手法が解釈可能性を向上させ、機械学習アプリケーションの信頼性を高める可能性を浮き彫りにしています。

要約(オリジナル)

Ensuring the trustworthiness and interpretability of machine learning models is critical to their deployment in real-world applications. Feature attribution methods have gained significant attention, which provide local explanations of model predictions by attributing importance to individual input features. This study examines the generalization of feature attributions across various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers. We aim to assess the feasibility of utilizing a feature attribution method as a future detector and examine how these features can be harmonized across multiple models employing distinct architectures but trained on the same data distribution. By exploring this harmonization, we aim to develop a more coherent and optimistic understanding of feature attributions, enhancing the consistency of local explanations across diverse deep-learning models. Our findings highlight the potential for harmonized feature attribution methods to improve interpretability and foster trust in machine learning applications, regardless of the underlying architecture.

arxiv情報

著者 Md Abdul Kadir,Gowtham Krishna Addluri,Daniel Sonntag
発行日 2023-07-25 14:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク