Word-wise intonation model for cross-language TTS systems

要約

この論文では、ロシア語の単語ごとのイントネーション モデルを提案し、それを他の言語に一般化する方法を示します。
提案されたモデルは、自動データ マークアップおよびテキスト読み上げシステムへのその拡張アプリケーションに適しています。
また、ルールベースのアルゴリズムを使用するか、言語モデルで輪郭を予測することにより、イントネーション輪郭モデリング用に実装することもできます。
重要なアイデアは、単語内の強調された音節のさまざまな配置に関連する変動性を部分的に排除することです。
これは、ピッチ単純化と動的タイムワーピング クラスタリングを同時に適用することで実現されます。
提案されたモデルは、イントネーション研究のツールとして、またはテキスト読み上げシステムにおける韻律記述のバックボーンとして使用できる可能性があります。
モデルの利点として、既存のイントネーション システムとの関係、および韻律予測に言語モデルを使用できる可能性を示します。
最後に、パラメーターの変動に対するシステムの堅牢性の実際的な証拠をいくつか示します。

要約(オリジナル)

In this paper we propose a word-wise intonation model for Russian language and show how it can be generalized for other languages. The proposed model is suitable for automatic data markup and its extended application to text-to-speech systems. It can also be implemented for an intonation contour modeling by using rule-based algorithms or by predicting contours with language models. The key idea is a partial elimination of the variability connected with different placements of a stressed syllable in a word. It is achieved with simultaneous applying of pitch simplification with a dynamic time warping clustering. The proposed model could be used as a tool for intonation research or as a backbone for prosody description in text-to-speech systems. As the advantage of the model, we show its relations with the existing intonation systems as well as the possibility of using language models for prosody prediction. Finally, we demonstrate some practical evidence of the system robustness to parameter variations.

arxiv情報

著者 Tomilov A. A.,Gromova A. Y.,Svischev A. N
発行日 2024-09-30 15:09:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク