DiConStruct: Causal Concept-based Explanations through Black-Box Distillation

要約

モデルの解釈可能性は、人間と AI の意思決定システムにおいて中心的な役割を果たします。
理想的には、説明は人間が解釈可能な意味概念を使用して表現されるべきです。
さらに、説明者は、説明についての推論を可能にするために、これらの概念間の因果関係を把握する必要があります。
最後に、説明方法は効率的であり、予測タスクのパフォーマンスを損なうものであってはなりません。
近年、AI の説明可能性は急速に進歩していますが、これまでに知られている限り、これら 3 つの特性を満たす手法はありません。
実際、局所的な概念の説明可能性のための主流の方法は、因果関係の説明を生成せず、説明可能性と予測パフォーマンスの間にトレードオフが発生します。
我々は、構造的因果モデルと概念属性の形でより解釈可能な局所的な説明を作成することを目的として、概念ベースで因果的な説明手法である DiConStruct を紹介します。
私たちのExplainerは、それぞれの説明を生成しながら予測を近似することにより、ブラックボックス機械学習モデルの蒸留モデルとして機能します。
このため、DiConStruct はブラックボックス予測タスクに影響を与えずに説明を効率的に生成します。
画像データセットと表形式データセットでメソッドを検証し、DiConStruct が他の概念説明可能ベースラインよりも高い忠実度でブラックボックス モデルを近似し、概念間の因果関係を含む説明を提供することを示します。

要約(オリジナル)

Model interpretability plays a central role in human-AI decision-making systems. Ideally, explanations should be expressed using human-interpretable semantic concepts. Moreover, the causal relations between these concepts should be captured by the explainer to allow for reasoning about the explanations. Lastly, explanation methods should be efficient and not compromise the performance of the predictive task. Despite the rapid advances in AI explainability in recent years, as far as we know to date, no method fulfills these three properties. Indeed, mainstream methods for local concept explainability do not produce causal explanations and incur a trade-off between explainability and prediction performance. We present DiConStruct, an explanation method that is both concept-based and causal, with the goal of creating more interpretable local explanations in the form of structural causal models and concept attributions. Our explainer works as a distillation model to any black-box machine learning model by approximating its predictions while producing the respective explanations. Because of this, DiConStruct generates explanations efficiently while not impacting the black-box prediction task. We validate our method on an image dataset and a tabular dataset, showing that DiConStruct approximates the black-box models with higher fidelity than other concept explainability baselines, while providing explanations that include the causal relations between the concepts.

arxiv情報

著者 Ricardo Moreira,Jacopo Bono,Mário Cardoso,Pedro Saleiro,Mário A. T. Figueiredo,Pedro Bizarro
発行日 2024-01-25 15:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク