End-to-end Streaming model for Low-Latency Speech Anonymization

要約

話者の匿名化は、言語コンテンツを保持しながら話者の身元を示す手がかりを隠すことを目的としています。
現在の機械学習ベースのアプローチは、大量の計算リソースを必要とし、リアルタイム ストリーミング アプリケーションの妨げとなります。
これらの懸念に対処するために、私たちは低遅延で話者の匿名化を実現するストリーミング モデルを提案します。
このシステムは、HuBERT のような情報を抽出する軽量コンテンツ エンコーダ、話者 ID を抽出する事前トレーニング済み話者エンコーダ、およびピッチとエネルギー情報を注入するバリアンス エンコーダを使用して、エンドツーエンドのオートエンコーダ方式でトレーニングされます。
これら 3 つの解かれた表現は、音声信号を再合成するデコーダに供給されます。
230ms のレイテンシーを達成するフルモデルと、最先端の自然なパフォーマンスを維持しながらレイテンシーをさらに 66ms に短縮するライトバージョン (サイズが 0.1 倍) の 2 つのシステムの実装による評価結果を紹介します。
わかりやすさとプライバシーの保護。

要約(オリジナル)

Speaker anonymization aims to conceal cues to speaker identity while preserving linguistic content. Current machine learning based approaches require substantial computational resources, hindering real-time streaming applications. To address these concerns, we propose a streaming model that achieves speaker anonymization with low latency. The system is trained in an end-to-end autoencoder fashion using a lightweight content encoder that extracts HuBERT-like information, a pretrained speaker encoder that extract speaker identity, and a variance encoder that injects pitch and energy information. These three disentangled representations are fed to a decoder that resynthesizes the speech signal. We present evaluation results from two implementations of our system, a full model that achieves a latency of 230ms, and a lite version (0.1x in size) that further reduces latency to 66ms while maintaining state-of-the-art performance in naturalness, intelligibility, and privacy preservation.

arxiv情報

著者 Waris Quamer,Ricardo Gutierrez-Osuna
発行日 2024-06-13 16:15:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク