The Effect of Data Poisoning on Counterfactual Explanations

要約

反事実の説明は、ブラックボックス システムの予測を分析するための一般的な方法を提供し、異なる (つまり、より有利な) システム出力を得るために入力を変更する方法に関する実用的な変更を提案することで、計算に頼る機会を提供できます。
しかし、最近の研究では、さまざまな種類の操作に対する脆弱性が浮き彫りになりました。
この研究では、データポイズニングに対する反事実的な説明の脆弱性を研究しています。
私たちは、単一インスタンスまたはインスタンスのサブグループに対してローカルに、またはすべてのインスタンスに対してグローバルに、という 3 つの異なるレベルでの賠償請求コストの増加に関する反事実的な説明の文脈でデータポイズニングを正式に導入し、調査します。
これに関連して、いくつかの異なるデータポイズニングの特徴を明らかにし、その正しさを証明します。
また、最先端の反事実生成手法やツールボックスがそのようなデータポイズニングに対して脆弱であることも実証的に示しています。

要約(オリジナル)

Counterfactual explanations provide a popular method for analyzing the predictions of black-box systems, and they can offer the opportunity for computational recourse by suggesting actionable changes on how to change the input to obtain a different (i.e.\ more favorable) system output. However, recent work highlighted their vulnerability to different types of manipulations. This work studies the vulnerability of counterfactual explanations to data poisoning. We formally introduce and investigate data poisoning in the context of counterfactual explanations for increasing the cost of recourse on three different levels: locally for a single instance, or a sub-group of instances, or globally for all instances. In this context, we characterize and prove the correctness of several different data poisonings. We also empirically demonstrate that state-of-the-art counterfactual generation methods and toolboxes are vulnerable to such data poisoning.

arxiv情報

著者 André Artelt,Shubham Sharma,Freddy Lecué,Barbara Hammer
発行日 2024-05-21 11:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク