Leveraging characteristics of the output probability distribution for identifying adversarial audio examples

要約

敵対的攻撃は、機械学習ベースの自動音声認識 (ASR) システムに対するセキュリティ上の脅威となります。
このような攻撃を防ぐために、各タイム ステップで出力トークンの確率分布を予測する、あらゆる ASR システムに適用できる敵対的な例の検出戦略を提案します。
この分布の一連の特性、つまり出力確率の中央値、最大値、最小値、エントロピー、後続のタイム ステップの分布のジェンセン・シャノン発散を測定します。
次に、良性データで観察された特性にガウス分布を当てはめます。
新しい音声が受信される可能性を計算することで、受信オペレータ特性 (AUROC) の下の面積が 0.99 より高く、低品質の音声の場合は 0.98 に下がります。クリーンなデータのサンプルから悪意のある入力を区別できます。
私たちの手法の堅牢性を評価するために、適応型攻撃を構築します。
これにより、AUROC は 0.96 に減少しますが、敵対的なクリップのノイズが多くなります。

要約(オリジナル)

Adversarial attacks represent a security threat to machine learning based automatic speech recognition (ASR) systems. To prevent such attacks we propose an adversarial example detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy, and the Jensen-Shannon divergence of the distributions of subsequent time steps. Then, we fit a Gaussian distribution to the characteristics observed for benign data. By computing the likelihood of incoming new audio we can distinguish malicious inputs from samples from clean data with an area under the receiving operator characteristic (AUROC) higher than 0.99, which drops to 0.98 for less-quality audio. To assess the robustness of our method we build adaptive attacks. This reduces the AUROC to 0.96 but results in more noisy adversarial clips.

arxiv情報

著者 Matías P. Pizarro B.,Dorothea Kolossa,Asja Fischer
発行日 2023-05-26 14:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS パーマリンク