Finding the right XAI method — A Guide for the Evaluation and Ranking of Explainable AI Methods in Climate Science

要約

説明可能な人工知能 (XAI) 手法は、機械学習アルゴリズムの予測に光を当てます。
いくつかの異なるアプローチが存在し、すでに気候科学に適用されています。
ただし、通常、グラウンド トゥルースの説明が欠落していると、その評価と比較が複雑になり、XAI 手法の選択が妨げられます。
したがって、この研究では、気候の文脈における XAI 評価を導入し、さまざまな望ましい説明特性、つまり堅牢性、忠実性、ランダム化、複雑性、局在性について議論します。
この目的を達成するために、10 年間の年平均気温マップを予測する過去の研究をケーススタディとして選択しました。
多層パーセプトロン (MLP) と畳み込みニューラル ネットワーク (CNN) の両方をトレーニングした後、複数の XAI メソッドが適用され、ランダムな均一説明を参照したスキル スコアがプロパティごとに計算されます。
ネットワークとは独立して、XAI メソッドの統合勾配、層ごとの関連性伝播、および入力時間勾配は、ランダム化のパフォーマンスを犠牲にしながらも、かなりの堅牢性、忠実性、および複雑さを示すことがわかりました。
感度メソッド — 勾配、SmoothGrad、NoiseGrad、および FusionGrad は、堅牢性スキルと一致しますが、ランダム化スキルの忠実さと複雑さを犠牲にします。
私たちは、さまざまな XAI 手法の堅牢性、複雑さ、位置特定スキルに関してアーキテクチャに依存するパフォーマンスの違いを発見し、研究タスク固有の評価の必要性を強調しています。
全体として、私たちの研究は、気候科学の文脈におけるさまざまな評価特性の概要を提供し、さまざまな説明方法を比較およびベンチマークし、当面の特定の研究課題に対する長所と短所に基づいてその適合性を評価する方法を示しています。
これにより、気候研究者が適切な XAI 手法を選択できるよう支援することを目指しています。

要約(オリジナル)

Explainable artificial intelligence (XAI) methods shed light on the predictions of machine learning algorithms. Several different approaches exist and have already been applied in climate science. However, usually missing ground truth explanations complicate their evaluation and comparison, subsequently impeding the choice of the XAI method. Therefore, in this work, we introduce XAI evaluation in the climate context and discuss different desired explanation properties, namely robustness, faithfulness, randomization, complexity, and localization. To this end, we chose previous work as a case study where the decade of annual-mean temperature maps is predicted. After training both a multi-layer perceptron (MLP) and a convolutional neural network (CNN), multiple XAI methods are applied and their skill scores in reference to a random uniform explanation are calculated for each property. Independent of the network, we find that XAI methods Integrated Gradients, layer-wise relevance propagation, and input times gradients exhibit considerable robustness, faithfulness, and complexity while sacrificing randomization performance. Sensitivity methods — gradient, SmoothGrad, NoiseGrad, and FusionGrad, match the robustness skill but sacrifice faithfulness and complexity for randomization skill. We find architecture-dependent performance differences regarding robustness, complexity and localization skills of different XAI methods, highlighting the necessity for research task-specific evaluation. Overall, our work offers an overview of different evaluation properties in the climate science context and shows how to compare and benchmark different explanation methods, assessing their suitability based on strengths and weaknesses, for the specific research problem at hand. By that, we aim to support climate researchers in the selection of a suitable XAI method.

arxiv情報

著者 Philine Bommer,Marlene Kretschmer,Anna Hedström,Dilyara Bareeva,Marina M. -C. Höhne
発行日 2024-03-22 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク