Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors

要約

説明可能な人工知能 (XAI) 戦略は、ニューラル ネットワークの理解と信頼性を高める上で重要な役割を果たします。
それにもかかわらず、これらの手法は誤解を招く説明を生成する可能性があります。
ブラインド攻撃は、機械学習アルゴリズムの予測と説明を大幅に変更し、モデルの精度を維持しながら、視覚的に目立たないアーティファクトを入力に追加することで誤解を招く情報を提供する可能性があります。
これは、XAI メソッドの信頼性を確保する上で重大な課題を引き起こします。
XAI 手法の信頼性が実際の課題であることを確認するために、統計分析を活用して、盲検攻撃後の CNN 内の CNN 重みの変化を強調します。
当社では、評価段階でそのような攻撃の有効性を制限するように特別に設計された方法を導入し、追加のトレーニングの必要性を回避します。
私たちが提案する方法は、ほとんどの最新の説明を意識した敵対的攻撃に対する防御であり、元の説明と比較して攻撃成功率 (ASR) が約 99% 低下し、平均二乗誤差 (MSE) が約 91% 減少します。
そして 3 つのユニークなタイプの攻撃にわたる防御された (攻撃後) の説明。

要約(オリジナル)

Explainable Artificial Intelligence (XAI) strategies play a crucial part in increasing the understanding and trustworthiness of neural networks. Nonetheless, these techniques could potentially generate misleading explanations. Blinding attacks can drastically alter a machine learning algorithm’s prediction and explanation, providing misleading information by adding visually unnoticeable artifacts into the input, while maintaining the model’s accuracy. It poses a serious challenge in ensuring the reliability of XAI methods. To ensure the reliability of XAI methods poses a real challenge, we leverage statistical analysis to highlight the changes in CNN weights within a CNN following blinding attacks. We introduce a method specifically designed to limit the effectiveness of such attacks during the evaluation phase, avoiding the need for extra training. The method we suggest defences against most modern explanation-aware adversarial attacks, achieving an approximate decrease of ~99\% in the Attack Success Rate (ASR) and a ~91\% reduction in the Mean Square Error (MSE) between the original explanation and the defended (post-attack) explanation across three unique types of attacks.

arxiv情報

著者 Md Abdul Kadir,GowthamKrishna Addluri,Daniel Sonntag
発行日 2024-03-25 09:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク