On the Robustness of Explanations of Deep Neural Network Models: A Survey

要約

説明可能性は、機械学習モデルの責任ある信頼できる使用の基礎として、広く述べられている。ディープニューラルネットワーク(DNN)モデルのユビキタスな利用が、リスクセンシティブでセーフティクリティカルな領域にまで拡大するにつれ、これらのモデルの決定を説明する方法が多く提案されてきた。また、近年では、このような説明が些細な入力の摂動によってどのように歪む(攻撃される)かを示す取り組みが盛んに行われています。説明可能な手法そのものをレビューする調査は数多くあるが、DNNモデルの説明の頑健性を研究するために提案された様々な手法や指標を同化させる試みはこれまでなされていない。本研究では、DNNモデルの説明を研究し、理解し、攻撃し、防御する手法の包括的なサーベイを行う。また、説明手法を評価するために使用される様々なメトリックの詳細なレビューを提示し、属性攻撃と防御の手法についても説明する。最後に、DNNモデル予測のロバストな説明を確保するためのコミュニティのための教訓と教訓を述べる。

要約(オリジナル)

Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.

arxiv情報

著者 Amlan Jyoti,Karthik Balaji Ganesh,Manoj Gayala,Nandita Lakshmi Tunuguntla,Sandesh Kamath,Vineeth N Balasubramanian
発行日 2022-11-09 10:14:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク