要約
敵対的な例が話者識別システムを脅かすことが証明されており、それらに対するいくつかの対抗策が提案されています。
この論文では、敵対的な例の存在を検出する方法、つまり、無害な例と敵対的な例を区別するバイナリ分類器を提案します。
新しいアーキテクチャを探索することで、攻撃タイプの分類に関する以前の研究を構築および拡張します。
さらに、敵対的攻撃が実行された被害者モデルを特定する方法を紹介します。
これを達成するために、さまざまな被害者モデルに対して実行された複数の攻撃を含む新しいデータセットを生成します。
攻撃検出では 0.982 の AUC を達成し、未知の攻撃に対するパフォーマンスの低下は 0.03 を超えません。
LightResNet34 アーキテクチャを使用した攻撃の分類精度 (良性を除く) は 8 種類の攻撃で 86.48% に達し、被害者モデルの分類精度は 4 つの被害者モデルで 72.28% に達しました。
要約(オリジナル)
Adversarial examples have proven to threaten speaker identification systems, and several countermeasures against them have been proposed. In this paper, we propose a method to detect the presence of adversarial examples, i.e., a binary classifier distinguishing between benign and adversarial examples. We build upon and extend previous work on attack type classification by exploring new architectures. Additionally, we introduce a method for identifying the victim model on which the adversarial attack is carried out. To achieve this, we generate a new dataset containing multiple attacks performed against various victim models. We achieve an AUC of 0.982 for attack detection, with no more than a 0.03 drop in performance for unknown attacks. Our attack classification accuracy (excluding benign) reaches 86.48% across eight attack types using our LightResNet34 architecture, while our victim model classification accuracy reaches 72.28% across four victim models.
arxiv情報
著者 | Sonal Joshi,Thomas Thebaud,Jesús Villalba,Najim Dehak |
発行日 | 2024-02-29 17:06:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google