Analyzing the Impact of Adversarial Examples on Explainable Machine Learning

要約

敵対的攻撃は、攻撃者が意図的に入力を変更してモデルに不正確な予測をさせる、機械学習モデルに対する攻撃の一種です。
敵対的な攻撃は、特に自動運転車、医療診断、セキュリティ システムなどのアプリケーションにおいて深刻な結果をもたらす可能性があります。
敵対的攻撃に対する深層学習モデルの脆弱性に関する研究により、モデルが望まないことを予測させるサンプルを非常に簡単に作成できることが判明しました。
この研究では、テキスト分類問題に対する敵対的攻撃によるモデルの解釈可能性の影響を分析します。
テキスト データの ML ベースの分類モデルを開発します。
次に、攻撃後の分類パフォーマンスを理解するために、テキスト データに敵対的摂動を導入します。
続いて、攻撃前後のモデルの説明可能性を分析および解釈します。

要約(オリジナル)

Adversarial attacks are a type of attack on machine learning models where an attacker deliberately modifies the inputs to cause the model to make incorrect predictions. Adversarial attacks can have serious consequences, particularly in applications such as autonomous vehicles, medical diagnosis, and security systems. Work on the vulnerability of deep learning models to adversarial attacks has shown that it is very easy to make samples that make a model predict things that it doesn’t want to. In this work, we analyze the impact of model interpretability due to adversarial attacks on text classification problems. We develop an ML-based classification model for text data. Then, we introduce the adversarial perturbations on the text data to understand the classification performance after the attack. Subsequently, we analyze and interpret the model’s explainability before and after the attack

arxiv情報

著者 Prathyusha Devabhakthini,Sasmita Parida,Raj Mani Shukla,Suvendu Chandan Nayak
発行日 2023-07-17 08:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク