NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

要約

視覚音声認識(VSR)の最近の進歩は、唇からスピーチの合成の進歩を促進しました。これにより、事前に訓練されたVSRモデルは、貴重なセマンティック情報を提供することにより、合成された音声の明瞭度を高めます。
擬似VSRと擬似テキストへの物語(TTS)を組み合わせたCascade Frameworksによって達成される成功または転写されたテキストを暗黙的に利用すると、VSRモデルを活用することの利点を強調します。
ただし、これらの方法は通常、中間表現としてメルスペクトルグラムに依存しており、重要なボトルネックを導入する可能性があります。本質的にエラーが発生しやすい唇からスピーチマッピングから生成された合成メルスペクトルグラムの間のドメインギャップと、使用された実際のメルセプログラムから生成されます。
ボコーダーをトレーニングする。
この不一致は、必然的に合成品質を低下させます。
このギャップを橋渡しするために、自然な唇からスピーチ(naturall2s)を提案します。これは、微分誘導性バイアスと微分可能な音声生成成分を統合するエンドツーエンドのフレームワークです。
具体的には、合成された音声の韻律変動をキャプチャするために、基本周波数(F0)予測因子を導入します。
予測されたF0は、微分可能なデジタル信号処理(DDSP)シンセサイザーを駆動して、その後の音声合成の事前の情報として機能する粗い信号を生成します。
さらに、補助入力として参照スピーカーの埋め込みに依存する代わりに、スピーカーの特性を明示的にモデル化することなく、スピーカーの類似性で満足のいくパフォーマンスを実現します。
客観的評価と主観的評価の両方の結果は、Naturall2が最先端の方法と比較した場合、合成された音声の品質を効果的に向上させることができることを示しています。
デモページには、https://yifan-liang.github.io/naturall2s/にアクセスできます。

要約(オリジナル)

Recent advancements in visual speech recognition (VSR) have promoted progress in lip-to-speech synthesis, where pre-trained VSR models enhance the intelligibility of synthesized speech by providing valuable semantic information. The success achieved by cascade frameworks, which combine pseudo-VSR with pseudo-text-to-speech (TTS) or implicitly utilize the transcribed text, highlights the benefits of leveraging VSR models. However, these methods typically rely on mel-spectrograms as an intermediate representation, which may introduce a key bottleneck: the domain gap between synthetic mel-spectrograms, generated from inherently error-prone lip-to-speech mappings, and real mel-spectrograms used to train vocoders. This mismatch inevitably degrades synthesis quality. To bridge this gap, we propose Natural Lip-to-Speech (NaturalL2S), an end-to-end framework integrating acoustic inductive biases with differentiable speech generation components. Specifically, we introduce a fundamental frequency (F0) predictor to capture prosodic variations in synthesized speech. The predicted F0 then drives a Differentiable Digital Signal Processing (DDSP) synthesizer to generate a coarse signal which serves as prior information for subsequent speech synthesis. Additionally, instead of relying on a reference speaker embedding as an auxiliary input, our approach achieves satisfactory performance on speaker similarity without explicitly modelling speaker characteristics. Both objective and subjective evaluation results demonstrate that NaturalL2S can effectively enhance the quality of the synthesized speech when compared to state-of-the-art methods. Our demonstration page is accessible at https://yifan-liang.github.io/NaturalL2S/.

arxiv情報

著者 Yifan Liang,Fangkun Liu,Andong Li,Xiaodong Li,Chengshi Zheng
発行日 2025-02-17 16:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク