要約
話者認識テクノロジーは、パーソナル仮想アシスタントから安全なアクセス システムに至るまで、さまざまなタスクに適用されます。
しかし、敵対的な攻撃、特に付加的な摂動に対するこれらのシステムの堅牢性は依然として大きな課題です。
この論文では、私たちは、当初は画像領域用に開発された堅牢性認証技術を話者認識に先駆的に適用しました。
私たちの研究では、分類および少数ショット学習タスクのためのノルム境界の加法的摂動に対するランダム化平滑化認定技術を話者認識に移管および改善することで、このギャップをカバーしています。
いくつかのモデルの VoxCeleb 1 および 2 データセットに対するこれらの手法の有効性を実証します。
私たちは、この研究により音声生体認証の堅牢性が向上し、オーディオ分野における認証方法の研究が加速されることを期待しています。
要約(オリジナル)
Speaker recognition technology is applied to various tasks, from personal virtual assistants to secure access systems. However, the robustness of these systems against adversarial attacks, particularly to additive perturbations, remains a significant challenge. In this paper, we pioneer applying robustness certification techniques to speaker recognition, initially developed for the image domain. Our work covers this gap by transferring and improving randomized smoothing certification techniques against norm-bounded additive perturbations for classification and few-shot learning tasks to speaker recognition. We demonstrate the effectiveness of these methods on VoxCeleb 1 and 2 datasets for several models. We expect this work to improve the robustness of voice biometrics and accelerate the research of certification methods in the audio domain.
arxiv情報
著者 | Dmitrii Korzh,Elvir Karimov,Mikhail Pautov,Oleg Y. Rogov,Ivan Oseledets |
発行日 | 2024-12-18 16:52:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google