要約
タイトル:End-to-End TTSシステムにおける話者非依存フレーズブレークモデルの調査
要約:
– 本論文は、エンドツーエンドのTTSシステムにおけるフレーズブレーク予測についての研究を発表している。
– この研究は主に2つの疑問に基づいており、(i)エンドツーエンドのTTSシステムに明示的なフレーズモデルを組み込むことで有用性はあるのか?(ii)フレーズモデルの効果をどのように評価するのか?といった疑問がある。
– 特に、子供向けの物語合成の文脈でフレーズブレーク予測モデルの有用性と効果を評価し、リスナーの理解力を介して説明する。
– 知覚的なリスニング評価により、トレーニングされたフレーズモデルを使用してフレーズブレークの位置を予測した物語合成には、直接フレーズブレークを予測しない物語合成に比べて明らかに好評を得たことを示す。
要約(オリジナル)
This paper presents our work on phrase break prediction in the context of end-to-end TTS systems, motivated by the following questions: (i) Is there any utility in incorporating an explicit phrasing model in an end-to-end TTS system?, and (ii) How do you evaluate the effectiveness of a phrasing model in an end-to-end TTS system? In particular, the utility and effectiveness of phrase break prediction models are evaluated in in the context of childrens story synthesis, using listener comprehension. We show by means of perceptual listening evaluations that there is a clear preference for stories synthesized after predicting the location of phrase breaks using a trained phrasing model, over stories directly synthesized without predicting the location of phrase breaks.
arxiv情報
著者 | Anandaswarup Vadapalli |
発行日 | 2023-04-09 04:26:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI