Defense Against Adversarial Attacks using Convolutional Auto-Encoders

要約

深層学習モデルは、多くのタスクで最先端のパフォーマンスを実現しますが、そのアーキテクチャに固有の脆弱性を悪用する敵対的な攻撃の影響を受けやすくなります。
敵対的な攻撃は、知覚できないほどの摂動を加えて入力データを操作し、モデルがデータを誤って分類したり、誤った出力を生成したりする原因になります。
この研究は、敵対的攻撃に対する対象を絞った分類子モデルの堅牢性の強化に基づいています。
これを達成するために、入力画像に導入された敵対的な摂動に効果的に対抗する畳み込みオートエンコーダベースのアプローチが採用されています。
提案された方法論は、入力画像によく似た画像を生成することにより、モデルの精度を復元することを目的としています。

要約(オリジナル)

Deep learning models, while achieving state-of-the-art performance on many tasks, are susceptible to adversarial attacks that exploit inherent vulnerabilities in their architectures. Adversarial attacks manipulate the input data with imperceptible perturbations, causing the model to misclassify the data or produce erroneous outputs. This work is based on enhancing the robustness of targeted classifier models against adversarial attacks. To achieve this, an convolutional autoencoder-based approach is employed that effectively counters adversarial perturbations introduced to the input images. By generating images closely resembling the input images, the proposed methodology aims to restore the model’s accuracy.

arxiv情報

著者 Shreyasi Mandal
発行日 2023-12-06 14:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.4.5 パーマリンク