FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing

要約

ムービーダビングは、与えられた短い参照音声のボーカルの音色を維持しながら、時間的および感情的な側面の両方において、与えられたムービークリップに沿ったスピーチにスクリプトを変換することを目的としています。既存の手法は、主に単語誤り率を減らすことに焦点を当て、リップシンクや音響品質の重要性を無視している。これらの問題に対処するために、我々は、FlowDubberと名付けられたダビングのための大規模言語モデル(LLM)ベースのフローマッチングアーキテクチャを提案する。FlowDubberは、大規模音声言語モデルとデュアルコントラストアライニングを組み込むことにより、高品質のオーディオビジュアル同期と発音を達成する一方で、提案された音声拡張フローマッチングにより、従来の作品よりも優れた音響品質を達成する。まず、Qwen2.5をLLMのバックボーンとして導入し、映画のスクリプトと参照音声から文脈内のシーケンスを学習する。次に、提案する意味認識学習は、音素レベルでLLMの意味知識を取り込むことに重点を置く。次に、デュアルコントラストアライニング(DCA)は、唇の動きとの相互アライメントを強化し、類似の音素が混同される可能性のある曖昧性を低減する。最後に、提案するフローベースボイスエンハンシング(FVE)は、LLMに基づく音響フローマッチングガイダンスを導入して明瞭度を強化し、アフィンスタイル事前処理を用いて、勾配ベクトル場予測によりメルスペクトログラムにノイズを復元する際の同一性を強化することで、2つの側面から音響品質を改善する。広範な実験により、我々の手法が2つの主要なベンチマークにおいていくつかの最新手法を上回ることが実証された。デモは{href{https://galaxycong.github.io/LLM-Flow-Dubber/}}{textcolor{red}}{https://galaxycong.github.io/LLM-Flow-Dubber/}}で利用可能である。

要約(オリジナル)

Movie Dubbing aims to convert scripts into speeches that align with the given movie clip in both temporal and emotional aspects while preserving the vocal timbre of a given brief reference audio. Existing methods focus primarily on reducing the word error rate while ignoring the importance of lip-sync and acoustic quality. To address these issues, we propose a large language model (LLM) based flow matching architecture for dubbing, named FlowDubber, which achieves high-quality audio-visual sync and pronunciation by incorporating a large speech language model and dual contrastive aligning while achieving better acoustic quality via the proposed voice-enhanced flow matching than previous works. First, we introduce Qwen2.5 as the backbone of LLM to learn the in-context sequence from movie scripts and reference audio. Then, the proposed semantic-aware learning focuses on capturing LLM semantic knowledge at the phoneme level. Next, dual contrastive aligning (DCA) boosts mutual alignment with lip movement, reducing ambiguities where similar phonemes might be confused. Finally, the proposed Flow-based Voice Enhancing (FVE) improves acoustic quality in two aspects, which introduces an LLM-based acoustics flow matching guidance to strengthen clarity and uses affine style prior to enhance identity when recovering noise into mel-spectrograms via gradient vector field prediction. Extensive experiments demonstrate that our method outperforms several state-of-the-art methods on two primary benchmarks. The demos are available at {\href{https://galaxycong.github.io/LLM-Flow-Dubber/}{\textcolor{red}{https://galaxycong.github.io/LLM-Flow-Dubber/}}}.

arxiv情報

著者 Gaoxiang Cong,Liang Li,Jiadong Pan,Zhedong Zhang,Amin Beheshti,Anton van den Hengel,Yuankai Qi,Qingming Huang
発行日 2025-05-02 13:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク