The Effect of Data Poisoning on Counterfactual Explanations

要約

反事実的な説明は、ブラックボックス システムの予測を分析するための一般的な方法を提供し、異なる (つまり、より有利な) システム出力を得るために入力を変更する方法に関する実用的な変更を提案することで、計算に頼る機会を提供できます。
しかし、最近の研究では、さまざまな種類の操作に対する脆弱性が浮き彫りになりました。
この研究では、データポイズニングに対する反事実的な説明の脆弱性を研究しています。
私たちは、単一インスタンスまたはインスタンスのサブグループに対してローカルに、またはすべてのインスタンスに対してグローバルにという 3 つの異なるレベルでの救済コストの増加について、反事実的な説明のコンテキストでデータ ポイズニングを形式化します。
私たちは、最先端の反事実生成手法やツールボックスがそのようなデータポイズニングに対して脆弱であることを実証します。

要約(オリジナル)

Counterfactual explanations provide a popular method for analyzing the predictions of black-box systems, and they can offer the opportunity for computational recourse by suggesting actionable changes on how to change the input to obtain a different (i.e. more favorable) system output. However, recent work highlighted their vulnerability to different types of manipulations. This work studies the vulnerability of counterfactual explanations to data poisoning. We formalize data poisoning in the context of counterfactual explanations for increasing the cost of recourse on three different levels: locally for a single instance, or a sub-group of instances, or globally for all instances. We demonstrate that state-of-the-art counterfactual generation methods \& toolboxes are vulnerable to such data poisoning.

arxiv情報

著者 André Artelt,Shubham Sharma,Freddy Lecué,Barbara Hammer
発行日 2024-05-02 11:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク