There is more than one kind of robustness: Fooling Whisper with adversarial examples

要約

Whisper は、分布外の入力とランダム ノイズの両方に対して優れた堅牢性を示す、最近の自動音声認識 (ASR) モデルです。
この研究では、この堅牢性が敵対的なノイズに引き継がれないことを示します。
信号雑音比 35 ~ 45dB の非常に小さな入力摂動を生成することで、Whisper のパフォーマンスを劇的に低下させたり、選択したターゲット文を転写したりできることを示します。
また、Whisper 言語検出器を騙すことで、多言語モデルのパフォーマンスを非常に簡単に低下させることができることも示します。
広く普及しているオープンソース モデルのこれらの脆弱性は、実際的なセキュリティに影響を及ぼし、敵対的に堅牢な ASR の必要性を強調しています。

要約(オリジナル)

Whisper is a recent Automatic Speech Recognition (ASR) model displaying impressive robustness to both out-of-distribution inputs and random noise. In this work, we show that this robustness does not carry over to adversarial noise. We show that we can degrade Whisper performance dramatically, or even transcribe a target sentence of our choice, by generating very small input perturbations with Signal Noise Ratio of 35-45dB. We also show that by fooling the Whisper language detector we can very easily degrade the performance of multilingual models. These vulnerabilities of a widely popular open-source model have practical security implications and emphasize the need for adversarially robust ASR.

arxiv情報

著者 Raphael Olivier,Bhiksha Raj
発行日 2023-08-10 18:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク