DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

要約

最近の研究により、音声駆動型話し顔生成は大きく進歩したが、生成された映像の品質は、実際の録画映像の品質にはまだ及ばない。その理由の一つは、顔のランドマークや3DMM係数のような、人間の知識に基づいて設計された手作りの中間表現を使用しているためであり、顔の動きを正確に表現するには不十分である。さらに、これらの手法では、これらの表現を抽出するために、事前に訓練された外部モデルが必要であり、その性能は、話し顔生成の上限を設定する。これらの限界に対処するため、我々は、拡散オートエンコーダ(DAE)から得られるデータ駆動型潜在表現を活用する、DAE-Talkerと呼ばれる新しい手法を提案する。DAEは画像を潜在ベクトルに符号化する画像エンコーダと、そこから画像を再構成するDDIM画像デコーダを含む。我々はDAEを話し顔のビデオフレームで訓練し、その潜在表現をConformerベースのspeech2latentモデルの訓練ターゲットとして抽出する。これにより、DAE-Talkerはビデオフレーム全体を合成し、テンプレートビデオからの決められた頭部ポーズに依存するのではなく、発話内容に沿った自然な頭部動作を生成することができる。また、speech2latentにポーズモデリングを導入することで、ポーズ制御が可能になります。さらに、個々のフレームに対して学習させたDDIM画像デコーダを用いて連続ビデオフレームを生成する新しい方法を提案し、連続フレームの結合分布を直接モデル化する必要性を排除する。我々の実験によれば、DAE-Talkerは、リップシンク、映像の忠実度、ポーズの自然さにおいて、既存の一般的な手法を凌駕している。また、提案手法の有効性を分析するためにアブレーション研究を行い、DAE-Talkerのポーズ制御性を実証する。

要約(オリジナル)

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.

arxiv情報

著者 Chenpeng Du,Qi Chen,Xie Chen,Kai Yu
発行日 2024-03-01 11:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク