要約
因果概念効果推定は、解釈可能な機械学習の分野で関心が高まっています。
この一般的なアプローチは、人間が理解できる概念の因果関係を推定することによって機械学習モデルの動作を説明します。概念は、トークンのような生の入力よりもわかりやすく高レベルの知識を表します。
ただし、既存の因果概念効果説明手法は、データセット内に含まれるすべての概念を完全に観察することを前提としており、不完全な注釈や概念データの欠落により実際には失敗する可能性があります。
我々は、観察されていない概念が観察された概念の因果効果の推定に偏りをもたらす可能性があることを理論的に証明します。
この制限に対処するために、すべての概念が観察可能ではない場合に因果概念の効果を推定するために特別に設計された新しいフレームワークである、欠落認識因果概念説明者 (MCCE) を導入します。
私たちのフレームワークは、概念の欠落から生じる残留バイアスを考慮することを学習し、線形予測子を利用してこれらの概念とブラックボックス機械学習モデルの出力の間の関係をモデル化します。
ローカルレベルとグローバルレベルの両方で説明を提供できます。
私たちは実世界のデータセットを使用して検証を実施し、因果概念効果推定において、MCCE が最先端の説明手法と比較して有望なパフォーマンスを達成することを実証しました。
要約(オリジナル)
Causal concept effect estimation is gaining increasing interest in the field of interpretable machine learning. This general approach explains the behaviors of machine learning models by estimating the causal effect of human-understandable concepts, which represent high-level knowledge more comprehensibly than raw inputs like tokens. However, existing causal concept effect explanation methods assume complete observation of all concepts involved within the dataset, which can fail in practice due to incomplete annotations or missing concept data. We theoretically demonstrate that unobserved concepts can bias the estimation of the causal effects of observed concepts. To address this limitation, we introduce the Missingness-aware Causal Concept Explainer (MCCE), a novel framework specifically designed to estimate causal concept effects when not all concepts are observable. Our framework learns to account for residual bias resulting from missing concepts and utilizes a linear predictor to model the relationships between these concepts and the outputs of black-box machine learning models. It can offer explanations on both local and global levels. We conduct validations using a real-world dataset, demonstrating that MCCE achieves promising performance compared to state-of-the-art explanation methods in causal concept effect estimation.
arxiv情報
著者 | Jifan Gao,Guanhua Chen |
発行日 | 2024-11-14 18:03:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google