Fool SHAP with Stealthily Biased Sampling

要約

SHAP説明の目的は、特定の入力と背景の分布の違いによるモデル予測の違いに、どの特徴が最も寄与するかを特定することである。最近の研究では、悪意のある敵がSHAPを操作することで、任意の説明文を作成できることが示されています。しかし、既存の攻撃は、ブラックボックスモデル自体を変更することにのみ焦点を当てている。本論文では、モデルをそのままにして、背景分布に対する期待値を近似するために使用されるデータポイントのステルス性のある偏ったサンプリングを用いてSHAP説明を操作する、補完的な攻撃ファミリーを提案する。公正監査の文脈で、我々は、我々の攻撃が、検出されないまま、グループ間の結果の違いを説明する際に、敏感な特徴の重要性を低下させることができることを示す。より正確には、実世界のデータセットで行った実験により、我々の攻撃は、敏感な特徴の帰属の振幅を最大90%相対的に減少させることができることを示した。これらの結果は、SHAP説明の操作可能性を強調し、監査人がSHAP説明を懐疑的に扱うことを促すものである。

要約(オリジナル)

SHAP explanations aim at identifying which features contribute the most to the difference in model prediction at a specific input versus a background distribution. Recent studies have shown that they can be manipulated by malicious adversaries to produce arbitrary desired explanations. However, existing attacks focus solely on altering the black-box model itself. In this paper, we propose a complementary family of attacks that leave the model intact and manipulate SHAP explanations using stealthily biased sampling of the data points used to approximate expectations w.r.t the background distribution. In the context of fairness audit, we show that our attack can reduce the importance of a sensitive feature when explaining the difference in outcomes between groups while remaining undetected. More precisely, experiments performed on real-world datasets showed that our attack could yield up to a 90\% relative decrease in amplitude of the sensitive feature attribution. These results highlight the manipulability of SHAP explanations and encourage auditors to treat them with skepticism.

arxiv情報

著者 Gabriel Laberge,Ulrich Aïvodji,Satoshi Hara,Mario Marchand.,Foutse Khomh
発行日 2023-03-03 15:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク