Gradient based Feature Attribution in Explainable AI: A Technical Review

要約

ブラックボックス AI モデルの急増により、特にヘルスケアや自動運転など、一か八かのアプリケーションにおいて、内部メカニズムを説明し、その信頼性を正当化する必要性が高まっています。
説明可能な AI (XAI) の厳密な定義が存在しないため、モデルをさまざまな観点から説明および分析するために、説明可能性、解釈可能性、透明性に関連する膨大な研究が開発されてきました。
その結果、網羅的な論文リストがあるため、XAI 研究をあらゆる側面から包括的に概観することが困難になります。
AI 研究におけるニューラル ネットワークの人気を考慮して、XAI 研究の特定の領域、つまりニューラル ネットワーク モデルに直接採用できる勾配ベースの説明に焦点を絞ります。
このレビューでは、これまでの勾配ベースの説明方法を系統的に調査し、それらを 4 つの異なるクラスに分類するための新しい分類法を導入します。
次に、テクニックの詳細の本質を時系列で示し、アルゴリズムの進化を強調します。
次に、アルゴリズムのパフォーマンスを測定するために人的評価と定量的評価の両方を導入します。
さらに重要なのは、XAI における一般的な課題と、勾配ベースの説明における特定の課題を実証することです。
この調査が、研究者が最先端の進歩とそれに伴う欠点を理解するのに役立ち、将来の研究でこれらの問題に対処することに関心が高まる可能性があることを願っています。

要約(オリジナル)

The surge in black-box AI models has prompted the need to explain the internal mechanism and justify their reliability, especially in high-stakes applications, such as healthcare and autonomous driving. Due to the lack of a rigorous definition of explainable AI (XAI), a plethora of research related to explainability, interpretability, and transparency has been developed to explain and analyze the model from various perspectives. Consequently, with an exhaustive list of papers, it becomes challenging to have a comprehensive overview of XAI research from all aspects. Considering the popularity of neural networks in AI research, we narrow our focus to a specific area of XAI research: gradient based explanations, which can be directly adopted for neural network models. In this review, we systematically explore gradient based explanation methods to date and introduce a novel taxonomy to categorize them into four distinct classes. Then, we present the essence of technique details in chronological order and underscore the evolution of algorithms. Next, we introduce both human and quantitative evaluations to measure algorithm performance. More importantly, we demonstrate the general challenges in XAI and specific challenges in gradient based explanations. We hope that this survey can help researchers understand state-of-the-art progress and their corresponding disadvantages, which could spark their interest in addressing these issues in future work.

arxiv情報

著者 Yongjie Wang,Tong Zhang,Xu Guo,Zhiqi Shen
発行日 2024-03-15 15:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク