Evaluating Model Explanations without Ground Truth

要約

単一のモデル予測については、多くの競合する矛盾した説明があり、使用するものを選択することを困難にします。
現在の説明評価フレームワークは、理想的な「根本」の説明と比較するか、重要な入力に対するモデルの感度を検証することにより、品質を測定します。
これらのアプローチの限界の概要を説明し、ローカルの特徴の重要性の説明のための説明評価戦略の将来の開発を根付かせるために、3つの望ましい原則を提案します。
これらの原則を満たすモデルの説明を評価して比較するための基礎と真実の不可知論の説明評価フレームワーク(AX)を提案します。
以前のアプローチとは異なり、AXは比較のための理想的な地上真実の説明へのアクセスを必要としません。また、モデルの感度に依存しています – 説明品質の独立した尺度を提供します。
ベースラインと比較してAXを検証し、説明のフェアウォッシュを検出するためにそれを使用する方法を示します。
私たちのコードは、https://github.com/kairawal/evaluating-model-explanationsでグラウンド・トゥルースで入手できます。

要約(オリジナル)

There can be many competing and contradictory explanations for a single model prediction, making it difficult to select which one to use. Current explanation evaluation frameworks measure quality by comparing against ideal ‘ground-truth’ explanations, or by verifying model sensitivity to important inputs. We outline the limitations of these approaches, and propose three desirable principles to ground the future development of explanation evaluation strategies for local feature importance explanations. We propose a ground-truth Agnostic eXplanation Evaluation framework (AXE) for evaluating and comparing model explanations that satisfies these principles. Unlike prior approaches, AXE does not require access to ideal ground-truth explanations for comparison, or rely on model sensitivity – providing an independent measure of explanation quality. We verify AXE by comparing with baselines, and show how it can be used to detect explanation fairwashing. Our code is available at https://github.com/KaiRawal/Evaluating-Model-Explanations-without-Ground-Truth.

arxiv情報

著者 Kaivalya Rawal,Zihao Fu,Eoin Delaney,Chris Russell
発行日 2025-05-15 15:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 パーマリンク