UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching

要約

テキストからスピーチ(TTS)の最近の進歩により、非常に自然な音声統合が可能になりましたが、スピーチと複雑な背景環境の統合は依然として困難です。
テキストとアコースティックコンテキストを条件付けた音声と環境オーディオの両方を共同で生成するフローマッチングベースのTTSモデルであるUmbrattsを紹介します。
私たちのモデルは、バックグラウンドボリュームを細かく制御でき、多様で、コヒーレントで、コンテキスト対応のオーディオシーンを生成します。
重要な課題は、自然なコンテキストでアラインされた音声とバックグラウンドオーディオのデータがないことです。
ペアのトレーニングデータの欠如を克服するために、発表されていない録音から音声、バックグラウンドオーディオ、およびトランスクリプトを抽出する自己監督のフレームワークを提案します。
広範な評価は、Umbrattsが既存のベースラインを大幅に上回り、自然で高品質の環境的に認識しているオーディオを生成することを示しています。

要約(オリジナル)

Recent advances in Text-to-Speech (TTS) have enabled highly natural speech synthesis, yet integrating speech with complex background environments remains challenging. We introduce UmbraTTS, a flow-matching based TTS model that jointly generates both speech and environmental audio, conditioned on text and acoustic context. Our model allows fine-grained control over background volume and produces diverse, coherent, and context-aware audio scenes. A key challenge is the lack of data with speech and background audio aligned in natural context. To overcome the lack of paired training data, we propose a self-supervised framework that extracts speech, background audio, and transcripts from unannotated recordings. Extensive evaluations demonstrate that UmbraTTS significantly outperformed existing baselines, producing natural, high-quality, environmentally aware audios.

arxiv情報

著者 Neta Glazer,Aviv Navon,Yael Segal,Aviv Shamsian,Hilit Segev,Asaf Buchnick,Menachem Pirchi,Gil Hetz,Joseph Keshet
発行日 2025-06-11 15:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク