Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model

要約

タイトル: 自己教師あり音声表現モデルを使ったゼロショットテキストから音声合成

要約:
– この論文では、自己教師学習(SSL)によって獲得された自己教師あり音声表現モデルによって条件付けられたゼロショットテキストから音声を合成する方法が提案されている。
– これまでの方法では、x-vector や global style token からの埋め込みベクトルを使用しても、未知の話者の話者特性を再現するのに十分ではないという課題があった。
– 提案された方法の新しい点は、大量のデータでトレーニングされた音声表現から embedding vector を直接取得することです。
– 音響特徴と音素の時間長予測器のスペリット調整を紹介し、リズムベースの話者特性と音響特徴ベースの特性の間で解析された埋め込みを取得する方法を提案しました。
– 客観的および主観的評価により、提案手法は、改善された類似性で音声を合成し、音声リズム転送を実現できることが示された。

要約(オリジナル)

This paper proposes a zero-shot text-to-speech (TTS) conditioned by a self-supervised speech-representation model acquired through self-supervised learning (SSL). Conventional methods with embedding vectors from x-vector or global style tokens still have a gap in reproducing the speaker characteristics of unseen speakers. A novel point of the proposed method is the direct use of the SSL model to obtain embedding vectors from speech representations trained with a large amount of data. We also introduce the separate conditioning of acoustic features and a phoneme duration predictor to obtain the disentangled embeddings between rhythm-based speaker characteristics and acoustic-feature-based ones. The disentangled embeddings will enable us to achieve better reproduction performance for unseen speakers and rhythm transfer conditioned by different speeches. Objective and subjective evaluations showed that the proposed method can synthesize speech with improved similarity and achieve speech-rhythm transfer.

arxiv情報

著者 Kenichi Fujita,Takanori Ashihara,Hiroki Kanagawa,Takafumi Moriya,Yusuke Ijima
発行日 2023-04-24 10:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク