Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling

要約

音声韻律モデリングにおける一般的なアプローチのほとんどは、参照音声の属性をエンコードして転送する連続潜在空間でのグローバル スタイル表現の学習に依存しています。
ただし、残差ベクトル量子化 (RVQ) に基づくニューラル コーデックに関する最近の研究では、明確な利点を提供する大きな可能性がすでに示されています。
我々は、このような RVQ-VAE モデルの離散空間の韻律モデリング機能を調査し、音素レベルで動作するように修正します。
モデルのエンコーダーとデコーダーの両方を言語表現に基づいて条件付けし、音声情報と話者情報の両方を除外するためにグローバル話者埋め込みを適用します。
我々は、主観的な実験と客観的な尺度に基づいて一連の広範な調査を実施し、この方法で得られた音素レベルの離散潜在表現が高度なもつれ解除を達成し、堅牢で伝達可能なきめの細かい韻律情報を捕捉することを示しました。
潜在空間は、ピッチとエネルギーに対応する主成分を備えた解釈可能な構造を持っていることが判明しました。

要約(オリジナル)

Most of the prevalent approaches in speech prosody modeling rely on learning global style representations in a continuous latent space which encode and transfer the attributes of reference speech. However, recent work on neural codecs which are based on Residual Vector Quantization (RVQ) already shows great potential offering distinct advantages. We investigate the prosody modeling capabilities of the discrete space of such an RVQ-VAE model, modifying it to operate on the phoneme-level. We condition both the encoder and decoder of the model on linguistic representations and apply a global speaker embedding in order to factor out both phonetic and speaker information. We conduct an extensive set of investigations based on subjective experiments and objective measures to show that the phoneme-level discrete latent representations obtained this way achieves a high degree of disentanglement, capturing fine-grained prosodic information that is robust and transferable. The latent space turns out to have interpretable structure with its principal components corresponding to pitch and energy.

arxiv情報

著者 Sotirios Karapiperis,Nikolaos Ellinas,Alexandra Vioni,Junkwang Oh,Gunu Jho,Inchul Hwang,Spyros Raptis
発行日 2024-09-13 09:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク