Unrestricted Black-box Adversarial Attack Using GAN with Limited Queries

要約

敵対的な例は、ディープ ニューラル ネットワークを欺くために意図的に生成された入力です。
最近の研究では、ノルム制約のない無制限の敵対的攻撃が提案されています。
ただし、以前の無制限の攻撃方法には、ブラックボックス設定で実際のアプリケーションをだますための制限がまだあります。
このホワイト ペーパーでは、攻撃者が分類モデルの上位 1 つの最終決定にのみアクセスできる GAN を使用して、制限のない敵対的な例を生成するための新しい方法を紹介します。
私たちの方法であるLatent-HSJAは、潜在空間での決定ベースの攻撃の利点を効率的に活用し、分類モデルを欺くために潜在ベクトルをうまく操作します。
広範な実験により、提案された方法が、ブラックボックス設定で限られたクエリで分類モデルの堅牢性を評価するのに効率的であることを示しています。
まず、標的型攻撃方法がクエリ効率が高く、307 の ID を含む顔 ID 認識モデルの無制限の敵対的例を生成できることを示します。
次に、提案された方法が実世界の有名人認識サービスにもうまく攻撃できることを示します。

要約(オリジナル)

Adversarial examples are inputs intentionally generated for fooling a deep neural network. Recent studies have proposed unrestricted adversarial attacks that are not norm-constrained. However, the previous unrestricted attack methods still have limitations to fool real-world applications in a black-box setting. In this paper, we present a novel method for generating unrestricted adversarial examples using GAN where an attacker can only access the top-1 final decision of a classification model. Our method, Latent-HSJA, efficiently leverages the advantages of a decision-based attack in the latent space and successfully manipulates the latent vectors for fooling the classification model. With extensive experiments, we demonstrate that our proposed method is efficient in evaluating the robustness of classification models with limited queries in a black-box setting. First, we demonstrate that our targeted attack method is query-efficient to produce unrestricted adversarial examples for a facial identity recognition model that contains 307 identities. Then, we demonstrate that the proposed method can also successfully attack a real-world celebrity recognition service.

arxiv情報

著者 Dongbin Na,Sangwoo Ji,Jong Kim
発行日 2022-08-24 15:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク