Counterfactual Explanations with Probabilistic Guarantees on their Robustness to Model Change

要約

反事実説明 (CFE) は、機械学習モデルへの入力を調整して目的の出力を達成する方法をユーザーにガイドします。
既存の研究は主に静的なシナリオに取り組んでいますが、実際のアプリケーションではデータやモデルの変更が含まれることが多く、以前に生成された CFE が無効になり、ユーザーによる入力変更が無効になる可能性があります。
この問題に対処する現在の方法は、多くの場合、特定のモデルまたは変更タイプのみをサポートし、広範なハイパーパラメータ調整を必要とするか、モデル変更に対する CFE の堅牢性について確率的保証を提供できません。
このペーパーでは、解釈可能で選択が簡単なハイパーパラメータを提供しながら、あらゆるモデルおよび変更タイプに対して確率的保証を提供する、CFE を生成するための新しいアプローチを提案します。
私たちは、モデルの変更に対するロバスト性を確率的に定義するための理論的枠組みを確立し、BetaRCE メソッドがどのように直接そこから派生するかを実証します。
BetaRCE は、堅牢性を超えて説明の品質を向上させるために、選択された基本 CFE 生成方法と並行して適用されるポストホック方法です。
これにより、基本的な説明から、ユーザーが調整した確率限界を備えたより堅牢な説明への移行が容易になります。
ベースラインとの実験的な比較を通じて、BetaRCE が堅牢で最ももっともらしく、ベースラインに最も近い反事実の説明を生み出すことを示します。

要約(オリジナル)

Counterfactual explanations (CFEs) guide users on how to adjust inputs to machine learning models to achieve desired outputs. While existing research primarily addresses static scenarios, real-world applications often involve data or model changes, potentially invalidating previously generated CFEs and rendering user-induced input changes ineffective. Current methods addressing this issue often support only specific models or change types, require extensive hyperparameter tuning, or fail to provide probabilistic guarantees on CFE robustness to model changes. This paper proposes a novel approach for generating CFEs that provides probabilistic guarantees for any model and change type, while offering interpretable and easy-to-select hyperparameters. We establish a theoretical framework for probabilistically defining robustness to model change and demonstrate how our BetaRCE method directly stems from it. BetaRCE is a post-hoc method applied alongside a chosen base CFE generation method to enhance the quality of the explanation beyond robustness. It facilitates a transition from the base explanation to a more robust one with user-adjusted probability bounds. Through experimental comparisons with baselines, we show that BetaRCE yields robust, most plausible, and closest to baseline counterfactual explanations.

arxiv情報

著者 Ignacy Stępka,Mateusz Lango,Jerzy Stefanowski
発行日 2024-12-10 14:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク