Controlling Emotion in Text-to-Speech with Natural Language Prompts

要約

近年、プロンプトは自然言語を直感的に使用できるため、生成機械学習モデルの出力を制御する標準的な方法の 1 つになりました。
この研究では、プロンプトとして機能する感情豊かなテキストから派生した埋め込みを条件とするシステムを提案します。
これにより、スピーカーとプロンプトの埋め込みの共同表現が、トランスベースのアーキテクチャ内のいくつかのポイントで統合されます。
私たちのアプローチは、統合された感情的な音声とテキストのデータセットでトレーニングされ、モデルの一般化機能を高めるために各トレーニング反復でプロンプトを変更します。
客観的および主観的な評価結果は、プロンプトに含まれる感情を音声に正確に伝える条件付き合成システムの能力を実証します。
同時に、話者の身元を正確に把握できるとともに、全体的に高い音声品質と明瞭度が維持されます。

要約(オリジナル)

In recent years, prompting has quickly become one of the standard ways of steering the outputs of generative machine learning models, due to its intuitive use of natural language. In this work, we propose a system conditioned on embeddings derived from an emotionally rich text that serves as prompt. Thereby, a joint representation of speaker and prompt embeddings is integrated at several points within a transformer-based architecture. Our approach is trained on merged emotional speech and text datasets and varies prompts in each training iteration to increase the generalization capabilities of the model. Objective and subjective evaluation results demonstrate the ability of the conditioned synthesis system to accurately transfer the emotions present in a prompt to speech. At the same time, precise tractability of speaker identities as well as overall high speech quality and intelligibility are maintained.

arxiv情報

著者 Thomas Bott,Florian Lux,Ngoc Thang Vu
発行日 2024-06-10 15:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク