Adversarial attacks and defenses in explainable artificial intelligence: A survey

要約

説明可能な人工知能 (XAI) 手法は、統計モデルと深層学習モデルをデバッグして信頼し、その予測を解釈するための手段として描かれています。
しかし、敵対的機械学習 (AdvML) の最近の進歩により、最先端の説明手法の限界と脆弱性が浮き彫りになり、そのセキュリティと信頼性に疑問が生じています。
モデルの推論の証拠を操作したり、騙したり、公平に見せかけたりする可能性は、一か八かの意思決定や知識発見に適用されると有害な結果をもたらします。
この調査は、機械学習モデルの説明に対する敵対的攻撃および公平性指標に関する調査の包括的な概要を提供します。
AdvML と XAI の交差する研究分野の研究者と実践者の共通基盤を促進する方法の統一された表記法と分類法を導入します。
攻撃を防御し、堅牢な解釈方法を設計する方法について説明します。
私たちは、XAI に存在するセキュリティのリストを提供し、敵対的 XAI (AdvXAI) における新たな研究の方向性を概説します。
今後の作業では、報告された安全性の問題を考慮した説明方法と評価プロトコルの改善に取り組む必要があります。

要約(オリジナル)

Explainable artificial intelligence (XAI) methods are portrayed as a remedy for debugging and trusting statistical and deep learning models, as well as interpreting their predictions. However, recent advances in adversarial machine learning (AdvML) highlight the limitations and vulnerabilities of state-of-the-art explanation methods, putting their security and trustworthiness into question. The possibility of manipulating, fooling or fairwashing evidence of the model’s reasoning has detrimental consequences when applied in high-stakes decision-making and knowledge discovery. This survey provides a comprehensive overview of research concerning adversarial attacks on explanations of machine learning models, as well as fairness metrics. We introduce a unified notation and taxonomy of methods facilitating a common ground for researchers and practitioners from the intersecting research fields of AdvML and XAI. We discuss how to defend against attacks and design robust interpretation methods. We contribute a list of existing insecurities in XAI and outline the emerging research directions in adversarial XAI (AdvXAI). Future work should address improving explanation methods and evaluation protocols to take into account the reported safety issues.

arxiv情報

著者 Hubert Baniecki,Przemyslaw Biecek
発行日 2024-02-13 14:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク