HLTCOE JHU Submission to the Voice Privacy Challenge 2024


我々は、kNN-VC 法や WavLM 音声変換法などの音声変換ベースのシステムや、Whisper-VITS などのテキスト読み上げ (TTS) ベースのシステムを含む、音声プライバシー チャレンジ用の多数のシステムを紹介します。
逆に、TTS 手法は匿名化では優れたパフォーマンスを発揮しますが、感情の保存では劣ります。
最後に、2 つのカテゴリのシステムの長所と短所のバランスを取り、UAR を 47% に維持しながら 40% 以上の強力な EER を達成するランダム混合システムを提案します。


We present a number of systems for the Voice Privacy Challenge, including voice conversion based systems such as the kNN-VC method and the WavLM voice Conversion method, and text-to-speech (TTS) based systems including Whisper-VITS. We found that while voice conversion systems better preserve emotional content, they struggle to conceal speaker identity in semi-white-box attack scenarios; conversely, TTS methods perform better at anonymization and worse at emotion preservation. Finally, we propose a random admixture system which seeks to balance out the strengths and weaknesses of the two category of systems, achieving a strong EER of over 40% while maintaining UAR at a respectable 47%.


著者 Henry Li Xinyuan,Zexin Cai,Ashi Garg,Kevin Duh,Leibny Paola García-Perera,Sanjeev Khudanpur,Nicholas Andrews,Matthew Wiesner
発行日 2024-09-17 14:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク