AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis

要約

音声合成技術の進歩により、ユーザーは合成された音声の自然性と表現力に対する期待が高くなります。
しかし、以前の研究では、迅速な選択の重要性を無視しています。
この研究では、検索された生成(RAG)テクノロジーに基づいたテキストツーチー(TTS)フレームワークを提案します。これは、テキストコンテンツに従って音声スタイルを動的に調整して、より自然で鮮明なコミュニケーション効果を実現できます。
さまざまなコンテキストで高品質の音声サンプルを含む音声スタイルの知識データベースを構築し、スタイルマッチングスキームを開発しました。
このスキームでは、Llama、Per-llm-embedder、およびMokaによって抽出された埋め込みを使用して、知識データベースのサンプルと一致し、合成に最も適切な音声スタイルを選択します。
さらに、私たちの経験的研究は、提案された方法の有効性を検証します。
私たちのデモは、https://thuhcsi.github.io/icme2025-autostyle-ttsで見ることができます

要約(オリジナル)

With the advancement of speech synthesis technology, users have higher expectations for the naturalness and expressiveness of synthesized speech. But previous research ignores the importance of prompt selection. This study proposes a text-to-speech (TTS) framework based on Retrieval-Augmented Generation (RAG) technology, which can dynamically adjust the speech style according to the text content to achieve more natural and vivid communication effects. We have constructed a speech style knowledge database containing high-quality speech samples in various contexts and developed a style matching scheme. This scheme uses embeddings, extracted by Llama, PER-LLM-Embedder,and Moka, to match with samples in the knowledge database, selecting the most appropriate speech style for synthesis. Furthermore, our empirical research validates the effectiveness of the proposed method. Our demo can be viewed at: https://thuhcsi.github.io/icme2025-AutoStyle-TTS

arxiv情報

著者 Dan Luo,Chengyuan Ma,Weiqin Li,Jun Wang,Wei Chen,Zhiyong Wu
発行日 2025-04-14 15:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD パーマリンク