An investigation of speaker independent phrase break models in End-to-End TTS systems

要約

タイトル:End-to-End TTSシステムにおける話者非依存フレーズブレークモデルの調査

要約:

– 本論文では、次の問いに着目し、エンドツーエンドTTSシステムの文脈におけるフレーズブレーク予測に取り組んでいます。

1. エンドツーエンドTTSシステムに明示的なフレーズングモデルを組み込むことに何か有用性があるのか?
2. エンドツーエンドTTSシステムにおけるフレージングモデルの有効性をどのように評価すればよいのか?

– 特に、子供の物語合成の文脈でフレーズブレーク予測モデルの有用性と有効性を評価し、リスナーの理解力を用いて比較します。
– 訓練されたフレーズングモデルを使用してフレーズブレークの場所を予測せずに直接合成されたストーリーと比較して、フレーズブレークの場所を予測したストーリーの方が、知覚的な聴取評価において明らかな好ましさがあることを示します。

要約(オリジナル)

This paper presents our work on phrase break prediction in the context of end-to-end TTS systems, motivated by the following questions: (i) Is there any utility in incorporating an explicit phrasing model in an end-to-end TTS system?, and (ii) How do you evaluate the effectiveness of a phrasing model in an end-to-end TTS system? In particular, the utility and effectiveness of phrase break prediction models are evaluated in in the context of childrens story synthesis, using listener comprehension. We show by means of perceptual listening evaluations that there is a clear preference for stories synthesized after predicting the location of phrase breaks using a trained phrasing model, over stories directly synthesized without predicting the location of phrase breaks.

arxiv情報

著者 Anandaswarup Vadapalli
発行日 2023-04-21 05:03:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク