When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

要約

最近の法規制により、説明可能で透明性の高い人工知能システムの必要性が強調され、説明可能な人工知能(XAI)分野への関心が高まっている。それにもかかわらず、説明手法を検証するための標準化された基準がないことが、信頼できるシステムを開発する上での大きな障害となっている。我々は、XAIにおいて重要でありながら見落とされがちな、説明の頑健性という側面を取り上げる。この目的のために、非逆的摂動に対するニューラルネットワークの説明の頑健性を分析する新しいアプローチを提案し、多様体仮説を活用して、観測されたデータ分布に似た新しい摂動データポイントを生成する。さらに、様々な説明を統合するためのアンサンブル手法を提示し、説明を統合することが、モデルの決定の理解と頑健性の評価の両方に有益であることを示す。我々の研究の目的は、モデルの説明の信頼性を評価するためのフレームワークを実務家に提供することである。表形式のデータセットに適用されたニューラルネットワークから得られる特徴量の実験結果は、実用的なアプリケーションにおける頑健な説明の重要性を強調している。

要約(オリジナル)

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model’s decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

arxiv情報

著者 Ilaria Vascotto,Alex Rodriguez,Alessandro Bonaita,Luca Bortolussi
発行日 2025-04-03 14:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク