要約
我々は、kNN-VC 法や WavLM 音声変換法などの音声変換ベースのシステムや、Whisper-VITS などのテキスト読み上げ (TTS) ベースのシステムを含む、音声プライバシー チャレンジ用の多数のシステムを紹介します。
音声変換システムは感情的な内容をよりよく保存する一方で、セミホワイトボックス攻撃のシナリオでは話者の身元を隠すのに苦労することがわかりました。
逆に、TTS 手法は匿名化では優れたパフォーマンスを発揮しますが、感情の保存では劣ります。
最後に、2 つのカテゴリのシステムの長所と短所のバランスを取り、UAR を 47% に維持しながら 40% 以上の強力な EER を達成するランダム混合システムを提案します。
要約(オリジナル)
We present a number of systems for the Voice Privacy Challenge, including voice conversion based systems such as the kNN-VC method and the WavLM voice Conversion method, and text-to-speech (TTS) based systems including Whisper-VITS. We found that while voice conversion systems better preserve emotional content, they struggle to conceal speaker identity in semi-white-box attack scenarios; conversely, TTS methods perform better at anonymization and worse at emotion preservation. Finally, we propose a random admixture system which seeks to balance out the strengths and weaknesses of the two category of systems, achieving a strong EER of over 40% while maintaining UAR at a respectable 47%.
arxiv情報
著者 | Henry Li Xinyuan,Zexin Cai,Ashi Garg,Kevin Duh,Leibny Paola García-Perera,Sanjeev Khudanpur,Nicholas Andrews,Matthew Wiesner |
発行日 | 2024-09-13 15:29:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google