MoonCast: High-Quality Zero-Shot Podcast Generation

要約

テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出すことに顕著な成功を収めています。
ただし、これらのシステムは、ポッドキャストなどの実際のシナリオに典型的な長い、マルチスピーカー、および自発的な対話に機能を拡張する際に、依然として課題に直面しています。
これらの制限は、2つの主要な課題から生じます。1)長いスピーチ:ポッドキャストは通常​​、ほとんどの既存の作業の上限を超えて数分にわたって及びます。
2)自発性:ポッドキャストは、自発的で口頭での性質によってマークされており、正式な書面による文脈とは対照的です。
既存の作品は、しばしばこの自発性を捉えるのに不十分です。
このホワイトペーパーでは、テキストのみのソース(例:ストーリー、テクニカルレポート、TXT、PDF、またはWeb URL形式のニュース)からの自然なポッドキャストスタイルのスピーチを合成することを目的とした高品質のゼロショットポッドキャストの発電のソリューションであるMoonCastを提案します。
長いオーディオを生成するために、大規模なロングコンテキスト音声データを利用して、長い文字モデルベースのオーディオモデリングアプローチを採用します。
自発性を高めるために、ポッドキャスト生成モジュールを利用して、自発的な詳細を含むスクリプトを生成します。これらは、テキストからスピーチモデリング自体と同じくらい重要であることが経験的に示されています。
実験は、MoonCastがベースラインを上回ることを示しており、特に自発性と一貫性の顕著な改善があります。

要約(オリジナル)

Recent advances in text-to-speech synthesis have achieved notable success in generating high-quality short utterances for individual speakers. However, these systems still face challenges when extending their capabilities to long, multi-speaker, and spontaneous dialogues, typical of real-world scenarios such as podcasts. These limitations arise from two primary challenges: 1) long speech: podcasts typically span several minutes, exceeding the upper limit of most existing work; 2) spontaneity: podcasts are marked by their spontaneous, oral nature, which sharply contrasts with formal, written contexts; existing works often fall short in capturing this spontaneity. In this paper, we propose MoonCast, a solution for high-quality zero-shot podcast generation, aiming to synthesize natural podcast-style speech from text-only sources (e.g., stories, technical reports, news in TXT, PDF, or Web URL formats) using the voices of unseen speakers. To generate long audio, we adopt a long-context language model-based audio modeling approach utilizing large-scale long-context speech data. To enhance spontaneity, we utilize a podcast generation module to generate scripts with spontaneous details, which have been empirically shown to be as crucial as the text-to-speech modeling itself. Experiments demonstrate that MoonCast outperforms baselines, with particularly notable improvements in spontaneity and coherence.

arxiv情報

著者 Zeqian Ju,Dongchao Yang,Jianwei Yu,Kai Shen,Yichong Leng,Zhengtao Wang,Xu Tan,Xinyu Zhou,Tao Qin,Xiangyang Li
発行日 2025-03-19 07:17:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク