Normalized AOPC: Fixing Misleading Faithfulness Metrics for Feature Attribution Explainability

要約

ディープ ニューラル ネットワークの予測は解釈が難しいことで知られています。
特徴帰属手法は、各入力特徴の寄与を特定することで、これらの予測を説明することを目的としています。
忠実度は摂動曲線面積 (AOPC) を使用して評価されることが多く、ディープ ニューラル ネットワークの内部メカニズムを記述する際の特徴属性の正確さを反映します。
ただし、多くの研究は、さまざまなモデル間の忠実度を比較するために AOPC に依存しており、モデルの忠実度について誤った結論につながる可能性があることが示されています。
具体的には、AOPC はモデルの変動に敏感であり、その結果、モデル間の比較が信頼性の低いものになることがわかります。
さらに、モデル固有の下限値と上限値が分からないと、AOPC スコアを単独で解釈することは困難です。
これらの問題に対処するために、一貫したモデル間評価と個々のスコアのより有意義な解釈を可能にする正規化アプローチ、Normalized AOPC (NAOPC) を提案します。
私たちの実験は、この正規化が AOPC の結果を根本的に変える可能性があることを示しており、以前の研究の結論に疑問を投げかけ、特徴の帰属の忠実性を評価するためのより堅牢なフレームワークを提供します。

要約(オリジナル)

Deep neural network predictions are notoriously difficult to interpret. Feature attribution methods aim to explain these predictions by identifying the contribution of each input feature. Faithfulness, often evaluated using the area over the perturbation curve (AOPC), reflects feature attributions’ accuracy in describing the internal mechanisms of deep neural networks. However, many studies rely on AOPC to compare faithfulness across different models, which we show can lead to false conclusions about models’ faithfulness. Specifically, we find that AOPC is sensitive to variations in the model, resulting in unreliable cross-model comparisons. Moreover, AOPC scores are difficult to interpret in isolation without knowing the model-specific lower and upper limits. To address these issues, we propose a normalization approach, Normalized AOPC (NAOPC), enabling consistent cross-model evaluations and more meaningful interpretation of individual scores. Our experiments demonstrate that this normalization can radically change AOPC results, questioning the conclusions of earlier studies and offering a more robust framework for assessing feature attribution faithfulness.

arxiv情報

著者 Joakim Edin,Andreas Geert Motzfeldt,Casper L. Christensen,Tuukka Ruotsalo,Lars Maaløe,Maria Maistro
発行日 2024-08-15 13:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.0 パーマリンク