Classification Metrics for Image Explanations: Towards Building Reliable XAI-Evaluations

要約

コンピューター ビジョン モデル、特にディープ ニューラル ネットワークの意思決定プロセスは本質的に不透明です。つまり、これらの意思決定は人間には理解できません。
そこで、ここ数年にわたり、人間が理解できる説明を提供するための多くの方法が提案されてきました。
画像分類の場合、最も一般的なグループは顕著性手法です。これは、入力画像の (超) ピクセル単位の特徴属性スコアを提供します。
しかし、その結果を未知の真実と単純に比較することはできないため、その評価には依然として問題があります。
これを克服するために、多数の異なる代理メトリクスが定義されていますが、それらは説明可能性の手法自体と同様に、多くの場合直感に基づいて構築されているため、信頼性が低い可能性があります。
この論文では、顕著性手法の新しい評価指標が開発され、一般的な顕著性手法が ImageNet でベンチマークされます。
さらに、心理測定テストの概念に基づいて、そのような指標の信頼性評価のためのスキームが提案されています。
使用されているコードは https://github.com/lelo204/ClassificationMetricsForImage Explains にあります。

要約(オリジナル)

Decision processes of computer vision models – especially deep neural networks – are opaque in nature, meaning that these decisions cannot be understood by humans. Thus, over the last years, many methods to provide human-understandable explanations have been proposed. For image classification, the most common group are saliency methods, which provide (super-)pixelwise feature attribution scores for input images. But their evaluation still poses a problem, as their results cannot be simply compared to the unknown ground truth. To overcome this, a slew of different proxy metrics have been defined, which are – as the explainability methods themselves – often built on intuition and thus, are possibly unreliable. In this paper, new evaluation metrics for saliency methods are developed and common saliency methods are benchmarked on ImageNet. In addition, a scheme for reliability evaluation of such metrics is proposed that is based on concepts from psychometric testing. The used code can be found at https://github.com/lelo204/ClassificationMetricsForImageExplanations .

arxiv情報

著者 Benjamin Fresz,Lena Lörcher,Marco Huber
発行日 2024-06-07 16:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC パーマリンク