Pheme: Efficient and Conversational Speech Generation

要約

近年、音声生成は目覚ましい進歩を遂げており、実際の人間の声とほとんど区別できないワンショット生成機能が実現されています。
音声生成におけるこのような進歩を大規模な言語モデルと統合すると、幅広いアプリケーションに革命が起こる可能性があります。
ただし、会話支援システムなどの特定のアプリケーションでは、リアルタイムで効率的に動作する自然な会話形式の音声生成ツールが必要です。
VALL-E や SoundStorm などの階層型ニューラル オーディオ コーデックを利用した現在の最先端モデルが適切に動作するには、大規模なニューラル コンポーネントと広範なトレーニング データが必要です。
対照的に、MQTTS は、小規模な実際の会話音声データを活用しながら、よりコンパクトな会話 TTS モデルを構築することを目的としています。
ただし、自己回帰的な性質により推論のレイテンシが高くなるため、リアルタイムの使用が制限されます。
最先端の TTS モデルの強みを活かしながら現在の制限を緩和するために、この研究では、1) コンパクトでありながら高性能なモデルを提供し、2) 並列音声を可能にする Pheme モデル シリーズを導入します。
3) 自然な会話音声の生成、4) 小規模な会話データで効率的にトレーニングでき、データ需要を 10 分の 1 以上削減しながらも自己回帰 TTS モデルの品質と同等です。
また、単純な教師と生徒の蒸留を通じて、はるかに大規模な教師モデルによって生成された合成音声のみに依存して、事前学習済みの Pheme チェックポイントに加えて、単一話者のセットアップの音声品質が大幅に改善されることも示します。
オーディオ サンプルと事前トレーニングされたモデルはオンラインで入手できます。

要約(オリジナル)

In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online.

arxiv情報

著者 Paweł Budzianowski,Taras Sereda,Tomasz Cichy,Ivan Vulić
発行日 2024-01-05 14:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク