An analysis on the effects of speaker embedding choice in non auto-regressive TTS

要約

この論文では、非自己回帰因数分解マルチ話者音声合成アーキテクチャが、さまざまな話者埋め込みセットに存在する情報をどのように利用するかを理解するための最初の試みを紹介します。
表現を共同学習し、事前トレーニングされたモデルから初期化することで、ターゲット話者のアイデンティティの品質向上が決定されるかどうかを分析します。
別の分析では、さまざまなエンベディングのセットが、話者のアイデンティティと表現学習の観点から、ネットワークの中核となる音声抽象化 (つまり、ゼロ条件) にどのような影響を与えるかを調査します。
使用される埋め込みセットと学習戦略に関係なく、ネットワークはさまざまな話者のアイデンティティを同様にうまく処理でき、音声出力品質の変化はほとんど目立ちません。また、合成システムのコア構造内での話者の漏洩は避けられないことを示します。
これまでに採用された標準的なトレーニング手順。

要約(オリジナル)

In this paper we introduce a first attempt on understanding how a non-autoregressive factorised multi-speaker speech synthesis architecture exploits the information present in different speaker embedding sets. We analyse if jointly learning the representations, and initialising them from pretrained models determine any quality improvements for target speaker identities. In a separate analysis, we investigate how the different sets of embeddings impact the network’s core speech abstraction (i.e. zero conditioned) in terms of speaker identity and representation learning. We show that, regardless of the used set of embeddings and learning strategy, the network can handle various speaker identities equally well, with barely noticeable variations in speech output quality, and that speaker leakage within the core structure of the synthesis system is inevitable in the standard training procedures adopted thus far.

arxiv情報

著者 Adriana Stan,Johannah O’Mahony
発行日 2023-07-19 10:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク