Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation

要約

音声変換 (VC) は、ソースの内容を維持しながら、ソースの音声をターゲットの音声に変換します。
スピーチは主に、内容、音色、リズム、ピッチの 4 つの要素に分解できます。
残念ながら、関連作品のほとんどは内容と音色のみを考慮しているため、音声が自然ではなくなります。
最近の研究の中には、音声をいくつかのコンポーネントに分解できるものもありますが、それらには、手間のかかるボトルネック調整や、それぞれに分解された音声情報が含まれていると想定されるさまざまな手作りの機能が必要です。
この論文では、複数の手作り機能や面倒なボトルネック調整を必要とせず、2 つの拡張関数のみを使用して音声を 4 つのコンポーネントに自動的に分解できる VC モデルを提案します。
提案されたモデルは単純ですが効率的であり、実験結果は、もつれの解消の有効性と音声の自然さに関して、モデルがベースラインよりも優れたパフォーマンスを達成できることを示しています。

要約(オリジナル)

Voice Conversion (VC) converts the voice of a source speech to that of a target while maintaining the source’s content. Speech can be mainly decomposed into four components: content, timbre, rhythm and pitch. Unfortunately, most related works only take into account content and timbre, which results in less natural speech. Some recent works are able to disentangle speech into several components, but they require laborious bottleneck tuning or various hand-crafted features, each assumed to contain disentangled speech information. In this paper, we propose a VC model that can automatically disentangle speech into four components using only two augmentation functions, without the requirement of multiple hand-crafted features or laborious bottleneck tuning. The proposed model is straightforward yet efficient, and the empirical results demonstrate that our model can achieve a better performance than the baseline, regarding disentanglement effectiveness and speech naturalness.

arxiv情報

著者 Zhonghua Liu,Shijun Wang,Ning Chen
発行日 2023-06-21 13:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク