Causal Explanations for Image Classifiers

要約

画像分類器の出力を説明するための既存のアルゴリズムは、説明のさまざまな定義と、説明を抽出するさまざまな手法を使用します。
しかし、既存のツールはいずれも、原因の正式な定義と説明を抽出するための説明に基づいた原則的なアプローチを使用していません。
この論文では、実際の因果関係の理論に基づいて説明を計算するための新しいブラックボックス アプローチを紹介します。
我々は、関連する理論的結果を証明し、これらの定義に基づいて近似的な説明を計算するためのアルゴリズムを提示します。
アルゴリズムの終了を証明し、その複雑さと正確な定義と比較した近似の量について説明します。
このフレームワークをツール rex に実装し、実験結果と最先端のツールとの比較を示します。
私たちは、rex が最も効率的なツールであり、最小限の説明を生成するだけでなく、標準的な品質尺度において他のブラックボックス ツールよりも優れていることを実証します。

要約(オリジナル)

Existing algorithms for explaining the output of image classifiers use different definitions of explanations and a variety of techniques to extract them. However, none of the existing tools use a principled approach based on formal definitions of causes and explanations for the explanation extraction. In this paper we present a novel black-box approach to computing explanations grounded in the theory of actual causality. We prove relevant theoretical results and present an algorithm for computing approximate explanations based on these definitions. We prove termination of our algorithm and discuss its complexity and the amount of approximation compared to the precise definition. We implemented the framework in a tool rex and we present experimental results and a comparison with state-of-the-art tools. We demonstrate that rex is the most efficient tool and produces the smallest explanations, in addition to outperforming other black-box tools on standard quality measures.

arxiv情報

著者 Hana Chockler,David A. Kelly,Daniel Kroening,Youcheng Sun
発行日 2024-11-13 18:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク