Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約

ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライズされた迅速なカスタマイズが重要なトレンドとして浮上しています。
このレポートでは、主にTakin TTS、Takin VC、Takin Morphingを含む、オーディオブック制作のために特別に設計された一連の技術とモデルであるTakin AudioLLMを紹介します。
これらのモデルはゼロショット音声生成が可能で、実際の人間の音声とほとんど区別できない高品質の音声を生成し、個人が自分のニーズに応じて音声コンテンツをカスタマイズするのを容易にします。
具体的には、まず、強化されたニューラル音声コーデックとマルチタスク トレーニング フレームワークに基づいて構築され、ゼロショットで忠実度の高い自然音声を生成できるニューラル コーデック言語モデルである Taron TTS を紹介します。
Taylor VC では、話者の類似性を改善するために効果的なコンテンツと音色のジョイント モデリング アプローチを提唱すると同時に、その自然さと表現力をさらに強化するために条件付きフロー マッチング ベースのデコーダを提唱しています。
最後に、高度に分離された高度な音色と韻律モデリング アプローチを備えたターキン モーフィング システムを提案します。これにより、個人が正確かつ制御可能な方法で好みの音色と韻律で音声生成をカスタマイズできるようになります。
広範な実験により、Takin AudioLLM シリーズ モデルの有効性と堅牢性が検証されています。
詳細なデモについては、https://takinaudiollm.github.io を参照してください。

要約(オリジナル)

With the advent of the big data and large language model era, zero-shot personalized rapid customization has emerged as a significant trend. In this report, we introduce Takin AudioLLM, a series of techniques and models, mainly including Takin TTS, Takin VC, and Takin Morphing, specifically designed for audiobook production. These models are capable of zero-shot speech production, generating high-quality speech that is nearly indistinguishable from real human speech and facilitating individuals to customize the speech content according to their own needs. Specifically, we first introduce Takin TTS, a neural codec language model that builds upon an enhanced neural speech codec and a multi-task training framework, capable of generating high-fidelity natural speech in a zero-shot way. For Takin VC, we advocate an effective content and timbre joint modeling approach to improve the speaker similarity, while advocating for a conditional flow matching based decoder to further enhance its naturalness and expressiveness. Last, we propose the Takin Morphing system with highly decoupled and advanced timbre and prosody modeling approaches, which enables individuals to customize speech production with their preferred timbre and prosody in a precise and controllable manner. Extensive experiments validate the effectiveness and robustness of our Takin AudioLLM series models. For detailed demos, please refer to https://takinaudiollm.github.io.

arxiv情報

著者 EverestAI,:,Sijin Chen,Yuan Feng,Laipeng He,Tianwei He,Wendi He,Yanni Hu,Bin Lin,Yiting Lin,Pengfei Tan,Chengwei Tian,Chen Wang,Zhicheng Wang,Ruoye Xie,Jingjing Yin,Jianhao Ye,Jixun Yao,Quanlei Yan,Yuguang Yang
発行日 2024-09-18 17:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク