要約
話者認識テクノロジーは、パーソナル仮想アシスタントから安全なアクセス システムに至るまで、さまざまなタスクに適用されます。
しかし、敵対的な攻撃、特に付加的な摂動に対するこれらのシステムの堅牢性は依然として大きな課題です。
この論文では、私たちは、元々は画像領域のために開発されたロバスト性認証技術を話者認識に先駆的に適用しました。
私たちの研究では、分類および少数ショット学習タスクのためのノルム境界の加法的摂動に対するランダム化平滑化認定技術を話者認識に移管および改善することで、このギャップをカバーしています。
いくつかのモデルの VoxCeleb 1 および 2 データセットに対するこれらの手法の有効性を実証します。
この取り組みにより、音声バイオメトリの堅牢性が向上し、新しい認証ベンチマークが確立され、オーディオ分野における認証方法の研究が加速されることが期待されます。
要約(オリジナル)
Speaker recognition technology is applied in various tasks ranging from personal virtual assistants to secure access systems. However, the robustness of these systems against adversarial attacks, particularly to additive perturbations, remains a significant challenge. In this paper, we pioneer applying robustness certification techniques to speaker recognition, originally developed for the image domain. In our work, we cover this gap by transferring and improving randomized smoothing certification techniques against norm-bounded additive perturbations for classification and few-shot learning tasks to speaker recognition. We demonstrate the effectiveness of these methods on VoxCeleb 1 and 2 datasets for several models. We expect this work to improve voice-biometry robustness, establish a new certification benchmark, and accelerate research of certification methods in the audio domain.
arxiv情報
著者 | Dmitrii Korzh,Elvir Karimov,Mikhail Pautov,Oleg Y. Rogov,Ivan Oseledets |
発行日 | 2024-04-29 15:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google