要約
Text-to-Speech 合成の最近のモデルの中には、参照発話の韻律を、生成されたターゲット合成音声に転送することを目的としているものがあります。
これは、音声生成の調整に使用される参照発話の学習済み埋め込みを使用して行われます。
トレーニング中、参照発話はターゲット発話と同一です。
しかし、合成中に、これらのモデルは、合成されるテキストまたは話者とは異なる参照から韻律を転送するためによく使用されます。
この矛盾に対処するために、トレーニング中にも異なるが韻律的に関連する発話を使用することを提案します。
これにより、参照とターゲットが共通に持つ特性のみを伝達することをモデルが学習するようになるはずです。
韻律転送メソッドが実際に韻律を転送する場合、提案する方法でトレーニングできるはずです。
ただし、結果は、これらの条件下でトレーニングされたモデルは、ターゲット発話を参照として使用してトレーニングされたモデルよりも大幅にパフォーマンスが悪いことを示しています。
これを説明するために、韻律伝達モデルは韻律の伝達可能な表現を学習するのではなく、参照話者と参照テキストの両方に大きく依存する発話レベルの表現を学習すると仮定します。
要約(オリジナル)
Some recent models for Text-to-Speech synthesis aim to transfer the prosody of a reference utterance to the generated target synthetic speech. This is done by using a learned embedding of the reference utterance, which is used to condition speech generation. During training, the reference utterance is identical to the target utterance. Yet, during synthesis, these models are often used to transfer prosody from a reference that differs from the text or speaker being synthesized. To address this inconsistency, we propose to use a different, but prosodically-related, utterance during training too. We believe this should encourage the model to learn to transfer only those characteristics that the reference and target have in common. If prosody transfer methods do indeed transfer prosody they should be able to be trained in the way we propose. However, results show that a model trained under these conditions performs significantly worse than one trained using the target utterance as a reference. To explain this, we hypothesize that prosody transfer models do not learn a transferable representation of prosody, but rather an utterance-level representation which is highly dependent on both the reference speaker and reference text.
arxiv情報
著者 | Atli Thor Sigurgeirsson,Simon King |
発行日 | 2023-03-07 23:35:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google