要約
最近の研究により、音声による話し顔の生成は大幅に進歩しましたが、生成されたビデオの品質は依然として実際の録画の品質には及ばません。
その理由の 1 つは、顔のランドマークや 3DMM 係数などの手作りの中間表現の使用です。これらは人間の知識に基づいて設計されており、顔の動きを正確に記述するには不十分です。
さらに、これらの方法では、これらの表現を抽出するための事前トレーニングされた外部モデルが必要であり、そのパフォーマンスにより、話している顔の生成に上限が設定されます。
これらの制限に対処するために、拡散オートエンコーダー (DAE) から得られるデータ駆動型潜在表現を利用する DAE-Talker と呼ばれる新しい方法を提案します。
DAE には、画像を潜在ベクトルにエンコードする画像エンコーダーと、そこから画像を再構成する DDIM 画像デコーダーが含まれています。
話している顔のビデオ フレームで DAE をトレーニングし、その潜在表現を Conformer ベースの speech2latent モデルのトレーニング ターゲットとして抽出します。
これにより、DAE-Talker は、テンプレート ビデオからの所定の頭のポーズに依存するのではなく、完全なビデオ フレームを合成し、音声の内容に合わせた自然な頭の動きを生成することができます。
また、ポーズを制御できるように、 speech2latent にポーズ モデリングを導入します。
さらに、個々のフレームでトレーニングされた DDIM 画像デコーダを使用して連続ビデオ フレームを生成する新しい方法を提案します。これにより、連続フレームの結合分布を直接モデル化する必要がなくなります。
私たちの実験では、DAE-Talker がリップシンク、ビデオの忠実度、ポーズの自然さの点で既存の一般的な方法よりも優れていることが示されています。
また、提案された技術の有効性を分析し、DAE-Talker のポーズ制御可能性を実証するためにアブレーション研究も実施します。
要約(オリジナル)
While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
arxiv情報
著者 | Chenpeng Du,Qi Chen,Tianyu He,Xu Tan,Xie Chen,Kai Yu,Sheng Zhao,Jiang Bian |
発行日 | 2024-12-02 10:06:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google