Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer

要約

自動音声認識 (ASR) システムの広範な適用を考慮すると、主にディープ ニューラル ネットワークの脆弱性により、そのセキュリティ上の懸念がこれまで以上に注目を集めています。
これまでの研究では、敵対的な摂動を密かに作成することで音声認識システムの操作が可能になり、その結果、悪意のあるコマンドが生成されることが示されています。
これらの攻撃方法では、ほとんどの場合、$\ell_p$ ノルム制約の下でノイズ摂動を追加する必要があり、必然的に手動による修正によるアーティファクトが残ります。
最近の研究では、スタイル ベクトルを操作して Text-to-Speech (TTS) 合成音声に基づいて敵対的な例を合成することで、この制限を緩和しました。
ただし、最適化目標に基づいてスタイルを変更すると、オーディオ スタイルの制御性と編集性が大幅に低下します。
この論文では、ユーザーがカスタマイズしたスタイル転送に基づく ASR システムへの攻撃を提案します。
まず、スタイル転送と敵対的攻撃を順番に組み合わせたスタイル転送攻撃 (STA) の効果をテストします。
そして、改善策として、オーディオ品質を維持するための反復的なスタイル コード攻撃 (SCA) を提案します。
実験結果は、私たちの方法がユーザーのカスタマイズされたスタイルのニーズを満たし、ユーザー調査により音声の自然さを維持しながら、攻撃で 82% の成功率を達成できることを示しています。

要約(オリジナル)

In light of the widespread application of Automatic Speech Recognition (ASR) systems, their security concerns have received much more attention than ever before, primarily due to the susceptibility of Deep Neural Networks. Previous studies have illustrated that surreptitiously crafting adversarial perturbations enables the manipulation of speech recognition systems, resulting in the production of malicious commands. These attack methods mostly require adding noise perturbations under $\ell_p$ norm constraints, inevitably leaving behind artifacts of manual modifications. Recent research has alleviated this limitation by manipulating style vectors to synthesize adversarial examples based on Text-to-Speech (TTS) synthesis audio. However, style modifications based on optimization objectives significantly reduce the controllability and editability of audio styles. In this paper, we propose an attack on ASR systems based on user-customized style transfer. We first test the effect of Style Transfer Attack (STA) which combines style transfer and adversarial attack in sequential order. And then, as an improvement, we propose an iterative Style Code Attack (SCA) to maintain audio quality. Experimental results show that our method can meet the need for user-customized styles and achieve a success rate of 82% in attacks, while keeping sound naturalness due to our user study.

arxiv情報

著者 Weifei Jin,Yuxin Cao,Junjie Su,Qi Shen,Kai Ye,Derui Wang,Jie Hao,Ziyao Liu
発行日 2024-05-15 16:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS パーマリンク