Enhancing Counterfactual Explanation Search with Diffusion Distance and Directional Coherence

要約

AI モデルの導入における差し迫った問題は、予測についてより人間中心の説明を求める需要が高まっていることです。
より人間中心の説明に進むには、人間がどのように説明を生み出し、選択するかを理解することが有益です。
この研究では、人間の認知に関する洞察に触発され、効果的な反事実説明の探索を強化するために 2 つの新しいバイアスを組み込むことを提案し、テストします。
私たちの方法論の中心となるのは拡散距離の適用であり、実行可能な反事実の説明を探索する際にデータの接続性と実用性を重視します。
特に、拡散距離は、多数の短い長さのパスによってより相互接続されているポイントに効果的に重みを付けます。
このアプローチにより、密接に接続されたポイントが互いに近づき、それらの間の実行可能なパスが特定されます。
また、反事実に達するために、特徴空間におけるジョイントとマージナル方向の変化の間の位置合わせに対する優先順位の表現を可能にする方向コヒーレンス項も導入します。
この用語を使用すると、一度に 1 つの特徴を変更することでモデルの結果がどのように変化するかという予想に基づいた、一連の限界予測と一致する反事実的な説明を生成できます。
Coherent Directional Counterfactual Explainer (CoDiCE) と呼ばれる私たちの手法と、DiCE、FACE、Prototypes、Growing Spheres などの既存の手法に対する 2 つの新しいバイアスの影響を評価します。
連続型および混合型の特徴を備えた合成データセットと実際のデータセットの両方に対する一連のアブレーション実験を通じて、私たちの方法の有効性を実証します。

要約(オリジナル)

A pressing issue in the adoption of AI models is the increasing demand for more human-centric explanations of their predictions. To advance towards more human-centric explanations, understanding how humans produce and select explanations has been beneficial. In this work, inspired by insights of human cognition we propose and test the incorporation of two novel biases to enhance the search for effective counterfactual explanations. Central to our methodology is the application of diffusion distance, which emphasizes data connectivity and actionability in the search for feasible counterfactual explanations. In particular, diffusion distance effectively weights more those points that are more interconnected by numerous short-length paths. This approach brings closely connected points nearer to each other, identifying a feasible path between them. We also introduce a directional coherence term that allows the expression of a preference for the alignment between the joint and marginal directional changes in feature space to reach a counterfactual. This term enables the generation of counterfactual explanations that align with a set of marginal predictions based on expectations of how the outcome of the model varies by changing one feature at a time. We evaluate our method, named Coherent Directional Counterfactual Explainer (CoDiCE), and the impact of the two novel biases against existing methods such as DiCE, FACE, Prototypes, and Growing Spheres. Through a series of ablation experiments on both synthetic and real datasets with continuous and mixed-type features, we demonstrate the effectiveness of our method.

arxiv情報

著者 Marharyta Domnich,Raul Vicente
発行日 2024-04-19 11:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク