Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness

要約

自然言語処理 (NLP) の最近の進歩により、大規模言語モデル (LLM) はさまざまな目的で高品質のテキストを生成することに優れています。
特に、Text-To-Speech (TTS) システムでは、セマンティック トークン生成のための BERT の統合により、一貫した音声出力を生成する際のセマンティック コンテンツの重要性が強調されています。
それにもかかわらず、TTS 合成の促進における LLM の具体的な有用性は依然としてかなり限定されています。
この研究では、LLM を使用してテキストの意味論的な内容を強化することで TTS 合成を強化する、革新的なアプローチである Llama-VITS を導入しています。
Llama-VITS は、Llama2 のセマンティック埋め込みを、最先端のエンドツーエンド TTS フレームワークである VITS モデルと統合します。
主な音声合成プロセスに Llama2 を活用することで、私たちの実験は、Llama-VITS が元の VITS (ORI-VITS) の自然さと一致し、それらに BERT (BERT-VITS) が組み込まれていることを、中立的な音声の実質的なコレクションである LJSpeech データセット上で実証しました。
明確なスピーチ。
さらに、私たちの手法は、EmoV_DB データセットから感情的に一貫した音声を厳選して選択した EmoV_DB_bea_sem データセットの感情的な表現力を大幅に強化し、感情的な音声を生成する可能性を強調しています。

要約(オリジナル)

Recent advancements in Natural Language Processing (NLP) have seen Large-scale Language Models (LLMs) excel at producing high-quality text for various purposes. Notably, in Text-To-Speech (TTS) systems, the integration of BERT for semantic token generation has underscored the importance of semantic content in producing coherent speech outputs. Despite this, the specific utility of LLMs in enhancing TTS synthesis remains considerably limited. This research introduces an innovative approach, Llama-VITS, which enhances TTS synthesis by enriching the semantic content of text using LLM. Llama-VITS integrates semantic embeddings from Llama2 with the VITS model, a leading end-to-end TTS framework. By leveraging Llama2 for the primary speech synthesis process, our experiments demonstrate that Llama-VITS matches the naturalness of the original VITS (ORI-VITS) and those incorporate BERT (BERT-VITS), on the LJSpeech dataset, a substantial collection of neutral, clear speech. Moreover, our method significantly enhances emotive expressiveness on the EmoV_DB_bea_sem dataset, a curated selection of emotionally consistent speech from the EmoV_DB dataset, highlighting its potential to generate emotive speech.

arxiv情報

著者 Xincan Feng,Akifumi Yoshimoto
発行日 2024-04-12 06:42:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク