Are Deep Speech Denoising Models Robust to Adversarial Noise?

要約

ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケーション全体で広く使用されています。
ただし、このホワイトペーパーでは、最近の4つのDNSモデルをそれぞれ、知覚できない敵対的なノイズを追加することにより、理解できない意味不明の出力に還元できることを示しています。
さらに、我々の結果は、ターゲット攻撃の短期的な妥当性を示しており、モデルに任意の発話を出力し、空中攻撃を出力する可能性があります。
これらの攻撃の成功はモデルと設定によって異なり、攻撃はモデル固有の場合(つまり、ホワイトボックスと非譲渡不可)、最も強くなるように見えますが、我々の結果はDNSシステムの実用的な対策に対する差し迫った必要性を強調しています。

要約(オリジナル)

Deep noise suppression (DNS) models enjoy widespread use throughout a variety of high-stakes speech applications. However, in this paper, we show that four recent DNS models can each be reduced to outputting unintelligible gibberish through the addition of imperceptible adversarial noise. Furthermore, our results show the near-term plausibility of targeted attacks, which could induce models to output arbitrary utterances, and over-the-air attacks. While the success of these attacks varies by model and setting, and attacks appear to be strongest when model-specific (i.e., white-box and non-transferable), our results highlight a pressing need for practical countermeasures in DNS systems.

arxiv情報

著者 Will Schwarzer,Philip S. Thomas,Andrea Fanelli,Xiaoyu Liu
発行日 2025-03-14 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク