SIDEs: Separating Idealization from Deceptive Explanations in xAI

要約

Explainable AI (xAI) 手法は、ブラックボックス モデルの使用における信頼を確立するために重要です。
しかし、最近では、現在の xAI 手法に対して、それらの手法は同意できず、必然的に誤りであり、操作可能であるという批判が高まっており、ブラックボックス モデルの展開が損なわれ始めています。
Rudin (2019) は、xAI の説明は「間違っているに違いない」ため、一か八かのケースでブラックボックス モデルの使用を完全にやめるべきだとまで述べています。
しかし、歴史的には、科学において真実への厳密な忠実性は必須ではありません。
理想化、つまり科学理論やモデルに意図的に歪曲を導入することは自然科学では一般的であり、成功した科学ツールとみなされています。
したがって、問題は虚偽ではない。
この論文では、xAI 研究が理想化評価に取り組む必要性について概説します。
自然科学と科学哲学における理想化の使用を利用して、xAI 手法が成功した理想化または欺瞞的な説明 (SIDE) に関与しているかどうかを評価するための新しいフレームワークを紹介します。
SIDEs は、xAI 手法の限界とそれによってもたらされる歪みが、成功した理想化の一部となり得るか、それとも批評家が示唆するように実際に欺瞞的な歪みであるかを評価します。
理想化の評価において既存の研究が果たせる役割と、革新が必要な場合について説明します。
定性分析を通じて、主要な特徴重要性手法と反事実的説明が理想化の失敗を招きやすいことを発見し、理想化の失敗を改善するための救済策を提案します。

要約(オリジナル)

Explainable AI (xAI) methods are important for establishing trust in using black-box models. However, recent criticism has mounted against current xAI methods that they disagree, are necessarily false, and can be manipulated, which has started to undermine the deployment of black-box models. Rudin (2019) goes so far as to say that we should stop using black-box models altogether in high-stakes cases because xAI explanations ‘must be wrong’. However, strict fidelity to the truth is historically not a desideratum in science. Idealizations — the intentional distortions introduced to scientific theories and models — are commonplace in the natural sciences and are seen as a successful scientific tool. Thus, it is not falsehood qua falsehood that is the issue. In this paper, I outline the need for xAI research to engage in idealization evaluation. Drawing on the use of idealizations in the natural sciences and philosophy of science, I introduce a novel framework for evaluating whether xAI methods engage in successful idealizations or deceptive explanations (SIDEs). SIDEs evaluates whether the limitations of xAI methods, and the distortions that they introduce, can be part of a successful idealization or are indeed deceptive distortions as critics suggest. I discuss the role that existing research can play in idealization evaluation and where innovation is necessary. Through a qualitative analysis we find that leading feature importance methods and counterfactual explanations are subject to idealization failure and suggest remedies for ameliorating idealization failure.

arxiv情報

著者 Emily Sullivan
発行日 2024-04-25 11:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: A.0, cs.AI, cs.CY パーマリンク