要約
モデルの説明可能性の方法は、深層学習の公平性と健全性をテストするためにますます重要になっています。
モデルの入力の内部表現に対する概念の影響を測定するために、人間が解釈できる概念の例の小さなセットを使用する概念ベースの解釈可能性手法は、この研究ラインの重要なスレッドです。
この作業では、これらの説明可能性の方法が、分析対象のモデルと同じように、敵対的な攻撃に対して脆弱になる可能性があることを示します。
この現象を、TCAVとファセット機能の視覚化という2つのよく知られた概念ベースの解釈可能性手法で示します。
調査中の概念の例を注意深く混乱させることにより、解釈可能性メソッドの出力を根本的に変更できることを示します。
私たちが提案する攻撃は、肯定的な解釈(水玉模様はシマウマを分類する際のモデルの重要な概念です)または否定的な解釈(縞模様はシマウマの画像を識別する重要な要素ではありません)のいずれかを誘発する可能性があります。
私たちの仕事は、セーフティクリティカルなアプリケーションでは、機械学習パイプラインだけでなく、モデル解釈プロセスにもセキュリティが必要であるという事実を浮き彫りにしています。
要約(オリジナル)
Methods for model explainability have become increasingly critical for testing the fairness and soundness of deep learning. Concept-based interpretability techniques, which use a small set of human-interpretable concept exemplars in order to measure the influence of a concept on a model’s internal representation of input, are an important thread in this line of research. In this work we show that these explainability methods can suffer the same vulnerability to adversarial attacks as the models they are meant to analyze. We demonstrate this phenomenon on two well-known concept-based interpretability methods: TCAV and faceted feature visualization. We show that by carefully perturbing the examples of the concept that is being investigated, we can radically change the output of the interpretability method. The attacks that we propose can either induce positive interpretations (polka dots are an important concept for a model when classifying zebras) or negative interpretations (stripes are not an important factor in identifying images of a zebra). Our work highlights the fact that in safety-critical applications, there is need for security around not only the machine learning pipeline but also the model interpretation process.
arxiv情報
著者 | Davis Brown,Henry Kvinge |
発行日 | 2022-07-26 13:23:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google