When and How to Fool Explainable Models (and Humans) with Adversarial Examples

要約

ニューラル ネットワークなどの機械学習モデルを確実に導入することは、いくつかの制限があるため、依然として困難です。
主な欠点としては、解釈可能性の欠如と、敵対的な例や配布範囲外の入力に対する堅牢性の欠如が挙げられます。
この探索的レビューでは、説明可能な機械学習モデルに対する敵対的攻撃の可能性と限界を調査します。
まず、敵対的な例の概念を説明可能な機械学習シナリオに適合するように拡張します。このシナリオでは、入力、出力の分類、およびモデルの決定の説明が人間によって評価されます。
次に、人間による評価の下で説明可能なモデルに対して敵対的な例を生成できるかどうか (およびその方法) を研究するための包括的なフレームワークを提案し、新しい攻撃パラダイムを紹介および説明します。
特に、私たちのフレームワークは、問題の種類、ユーザーの専門知識、説明の目的など、関連するにもかかわらず無視されがちな幅広い要素を考慮して、ユーザーをうまく欺くために各シナリオで採用すべき攻撃戦略を特定します。
モデル(そして人間)。
これらの貢献の目的は、説明可能な機械学習の分野における敵対的な例のより厳密で現実的な研究の基礎として機能することです。

要約(オリジナル)

Reliable deployment of machine learning models such as neural networks continues to be challenging due to several limitations. Some of the main shortcomings are the lack of interpretability and the lack of robustness against adversarial examples or out-of-distribution inputs. In this exploratory review, we explore the possibilities and limits of adversarial attacks for explainable machine learning models. First, we extend the notion of adversarial examples to fit in explainable machine learning scenarios, in which the inputs, the output classifications and the explanations of the model’s decisions are assessed by humans. Next, we propose a comprehensive framework to study whether (and how) adversarial examples can be generated for explainable models under human assessment, introducing and illustrating novel attack paradigms. In particular, our framework considers a wide range of relevant yet often ignored factors such as the type of problem, the user expertise or the objective of the explanations, in order to identify the attack strategies that should be adopted in each scenario to successfully deceive the model (and the human). The intention of these contributions is to serve as a basis for a more rigorous and realistic study of adversarial examples in the field of explainable machine learning.

arxiv情報

著者 Jon Vadillo,Roberto Santana,Jose A. Lozano
発行日 2023-07-07 11:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク