SyntheticPop: Attacking Speaker Verification Systems With Synthetic VoicePops

要約

自動スピーカー検証(ASV)としても知られる音声認証(VA)は、特にユーザー認証の二次層として機能する銀行サービスなどの自動化されたシステムで、広く採用された認証方法です。
その人気にもかかわらず、VAシステムは、リプレイ、なりすまし、および正当なユーザーの声を模倣するディープファークオーディオの新たな脅威など、さまざまな攻撃に対して脆弱です。
これらのリスクを軽減するために、いくつかの防御メカニズムが提案されています。
そのような解決策の1つである音声ポップは、登録プロセス中に個人のユニークな音素発音を区別することを目指しています。
有望である間、より広範な攻撃、特に論理的または敵対的な攻撃に対するVA+VoicePopの有効性は、不十分に調査されたままです。
VA+VoicePopシステムの音素認識能力を標的とするように設計されたSyntheticPopと呼ばれる新しい攻撃方法を提案します。
SyntheticPop攻撃には、合成の「ポップ」ノイズをスプーフィングされたオーディオサンプルに埋め込み、モデルのパフォーマンスを大幅に低下させます。
トレーニングデータセットの20%を中毒しながら、95%を超える攻撃成功率を達成しています。
私たちの実験は、VA+VoicePopが通常の条件下で69%の精度を達成し、ベースラインラベルフリッピング攻撃を受けた場合、37%の精度を達成し、提案されたSyntheticPop攻撃で14%の精度を達成し、方法の有効性を強調することを示しています。

要約(オリジナル)

Voice Authentication (VA), also known as Automatic Speaker Verification (ASV), is a widely adopted authentication method, particularly in automated systems like banking services, where it serves as a secondary layer of user authentication. Despite its popularity, VA systems are vulnerable to various attacks, including replay, impersonation, and the emerging threat of deepfake audio that mimics the voice of legitimate users. To mitigate these risks, several defense mechanisms have been proposed. One such solution, Voice Pops, aims to distinguish an individual’s unique phoneme pronunciations during the enrollment process. While promising, the effectiveness of VA+VoicePop against a broader range of attacks, particularly logical or adversarial attacks, remains insufficiently explored. We propose a novel attack method, which we refer to as SyntheticPop, designed to target the phoneme recognition capabilities of the VA+VoicePop system. The SyntheticPop attack involves embedding synthetic ‘pop’ noises into spoofed audio samples, significantly degrading the model’s performance. We achieve an attack success rate of over 95% while poisoning 20% of the training dataset. Our experiments demonstrate that VA+VoicePop achieves 69% accuracy under normal conditions, 37% accuracy when subjected to a baseline label flipping attack, and just 14% accuracy under our proposed SyntheticPop attack, emphasizing the effectiveness of our method.

arxiv情報

著者 Eshaq Jamdar,Amith Kamath Belman
発行日 2025-02-13 18:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク