要約
本稿では、サイクル構造とメルスペクトログラム前処理を備えたシンプルで堅牢なゼロショット音声変換システムを提案します。
これまでの作品は、慎重に設計されたボトルネック構造に依存していたために、情報損失と合成品質の低下に悩まされていました。
さらに、自己再構成損失のみに依存するモデルは、さまざまな話者の音声を再現するのに苦労しました。
これらの問題に対処するために、ターゲット スピーカーとソース スピーカー間の相互変換を考慮したサイクル一貫性損失を提案しました。
さらに、スタックされたランダム シャッフル メル スペクトログラムとラベル スムージング手法が話者エンコーダのトレーニング中に利用され、音声から時間に依存しないグローバル話者表現が抽出されます。これがゼロショット変換の鍵となります。
私たちのモデルは、主観的評価と客観的評価の両方において、既存の最先端の結果を上回っています。
さらに、言語間の音声変換が容易になり、合成音声の品質が向上します。
要約(オリジナル)
This paper proposes a simple and robust zero-shot voice conversion system with a cycle structure and mel-spectrogram pre-processing. Previous works suffer from information loss and poor synthesis quality due to their reliance on a carefully designed bottleneck structure. Moreover, models relying solely on self-reconstruction loss struggled with reproducing different speakers’ voices. To address these issues, we suggested a cycle-consistency loss that considers conversion back and forth between target and source speakers. Additionally, stacked random-shuffled mel-spectrograms and a label smoothing method are utilized during speaker encoder training to extract a time-independent global speaker representation from speech, which is the key to a zero-shot conversion. Our model outperforms existing state-of-the-art results in both subjective and objective evaluations. Furthermore, it facilitates cross-lingual voice conversions and enhances the quality of synthesized speech.
arxiv情報
著者 | Haeyun Choi,Jio Gim,Yuho Lee,Youngin Kim,Young-Joo Suh |
発行日 | 2023-10-10 11:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google