DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

要約

感情音声変換 (EVC) は、元の言語内容と話者の固有の音声特性を維持しながら、話者の声の感情的な調子を変更することを目的としています。
EVC の最近の進歩には、シーケンス間 (seq2seq) モデルの可能性を利用した、ピッチとデュレーションの同時モデリングが含まれています。
変換の信頼性と効率を高めるために、この研究では並列音声生成に焦点を移しています。
スタイル オートエンコーダーとユニット アライナーを統合する、Duration-Flexible EVC (DurFlex-EVC) を紹介します。
従来のモデルは、言語情報とパラ言語情報の両方を含む自己教師あり学習 (SSL) 表現を組み込んでいるものの、この二重の性質を無視しており、制御性の低下につながっていました。
この問題に対処するために、これらの表現をさまざまな感情と同期させるためにクロスアテンションを実装します。
さらに、スタイル要素のもつれを解いて操作するために、スタイル オートエンコーダーが開発されています。
私たちのアプローチの有効性は主観的評価と客観的評価の両方を通じて検証され、現場の既存のモデルに対する優位性が確立されています。

要約(オリジナル)

Emotional voice conversion (EVC) seeks to modify the emotional tone of a speaker’s voice while preserving the original linguistic content and the speaker’s unique vocal characteristics. Recent advancements in EVC have involved the simultaneous modeling of pitch and duration, utilizing the potential of sequence-to-sequence (seq2seq) models. To enhance reliability and efficiency in conversion, this study shifts focus towards parallel speech generation. We introduce Duration-Flexible EVC (DurFlex-EVC), which integrates a style autoencoder and unit aligner. Traditional models, while incorporating self-supervised learning (SSL) representations that contain both linguistic and paralinguistic information, have neglected this dual nature, leading to reduced controllability. Addressing this issue, we implement cross-attention to synchronize these representations with various emotions. Additionally, a style autoencoder is developed for the disentanglement and manipulation of style elements. The efficacy of our approach is validated through both subjective and objective evaluations, establishing its superiority over existing models in the field.

arxiv情報

著者 Hyoung-Seok Oh,Sang-Hoon Lee,Deok-Hyun Cho,Seong-Whan Lee
発行日 2024-01-16 03:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク