Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization

要約

音声技術の進歩により、音声を通じて個人を特定できる情報に前例のないアクセスが可能になりました。
このような情報を保護するために、差分プライバシーの分野では、言語的および準言語的側面を含む実用性を維持しながら音声を匿名化する方法が模索されてきました。
ただし、感情的な状態を維持しながら音声を匿名化することは依然として困難です。
この問題を、VoicePrivacy 2024 チャレンジの文脈で検討します。
具体的には、さまざまな話者匿名化パイプラインを開発したところ、これらのアプローチは匿名化または感情状態の保存のいずれかに優れていますが、両方を同時に行うことはできないことがわかりました。
両方を達成するには、ドメイン内の感情認識装置が必要になります。
さらに、感情表現のみを使用して、半効果的な話者認証システムをトレーニングすることが可能であることがわかり、これら 2 つのモダリティを分離するという課題が実証されました。

要約(オリジナル)

Advances in speech technology now allow unprecedented access to personally identifiable information through speech. To protect such information, the differential privacy field has explored ways to anonymize speech while preserving its utility, including linguistic and paralinguistic aspects. However, anonymizing speech while maintaining emotional state remains challenging. We explore this problem in the context of the VoicePrivacy 2024 challenge. Specifically, we developed various speaker anonymization pipelines and find that approaches either excel at anonymization or preserving emotion state, but not both simultaneously. Achieving both would require an in-domain emotion recognizer. Additionally, we found that it is feasible to train a semi-effective speaker verification system using only emotion representations, demonstrating the challenge of separating these two modalities.

arxiv情報

著者 Zexin Cai,Henry Li Xinyuan,Ashi Garg,Leibny Paola García-Perera,Kevin Duh,Sanjeev Khudanpur,Nicholas Andrews,Matthew Wiesner
発行日 2024-09-05 16:10:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク