要約
既存の音声駆動の話し顔生成方法は大幅な進歩を遂げていますが、アバター固有のトレーニングの必要性と不安定な唇の動きのため、現実世界への応用には程遠いです。
上記の問題に対処するために、我々は GSmoothFace を提案します。これは、話者のアイデンティティを維持しながら滑らかな唇のダイナミクスを合成できる、きめの細かい 3D 顔モデルによって導かれる新しい 2 段階の一般化された話顔生成モデルです。
私たちが提案する GSmoothFace モデルは、主に Audio to Expression Prediction (A2EP) モジュールと Target Adaptive Face Translation (TAFT) モジュールで構成されています。
具体的には、まず、駆動音声に同期した表情パラメータを予測するA2EPモジュールを開発します。
トランスフォーマーを使用して長期間の音声コンテキストをキャプチャし、きめの細かい 3D 顔の頂点からパラメータを学習することで、正確かつスムーズなリップシンク パフォーマンスを実現します。
その後、Morphology Augmented Face Blending (MAFB) によって強化された適切に設計された TAFT モジュールが、予測された表情パラメータとターゲット ビデオを入力として受け取り、背景のコンテンツを歪めることなくターゲット ビデオの顔領域を変更します。
TAFT は、ターゲットビデオ内のアイデンティティの外観と背景コンテキストを効果的に活用するため、再トレーニングすることなく、さまざまな話者に一般化することができます。
定量的実験と定性的実験の両方で、リアリズム、リップシンク、視覚的品質の点で私たちの方法の優位性が確認されています。
コード、データ、および事前トレーニング済みモデルのリクエストについては、プロジェクト ページを参照してください: https://zhanghm1995.github.io/GSmoothFace。
要約(オリジナル)
Although existing speech-driven talking face generation methods achieve significant progress, they are far from real-world application due to the avatar-specific training demand and unstable lip movements. To address the above issues, we propose the GSmoothFace, a novel two-stage generalized talking face generation model guided by a fine-grained 3d face model, which can synthesize smooth lip dynamics while preserving the speaker’s identity. Our proposed GSmoothFace model mainly consists of the Audio to Expression Prediction (A2EP) module and the Target Adaptive Face Translation (TAFT) module. Specifically, we first develop the A2EP module to predict expression parameters synchronized with the driven speech. It uses a transformer to capture the long-term audio context and learns the parameters from the fine-grained 3D facial vertices, resulting in accurate and smooth lip-synchronization performance. Afterward, the well-designed TAFT module, empowered by Morphology Augmented Face Blending (MAFB), takes the predicted expression parameters and target video as inputs to modify the facial region of the target video without distorting the background content. The TAFT effectively exploits the identity appearance and background context in the target video, which makes it possible to generalize to different speakers without retraining. Both quantitative and qualitative experiments confirm the superiority of our method in terms of realism, lip synchronization, and visual quality. See the project page for code, data, and request pre-trained models: https://zhanghm1995.github.io/GSmoothFace.
arxiv情報
| 著者 | Haiming Zhang,Zhihao Yuan,Chaoda Zheng,Xu Yan,Baoyuan Wang,Guanbin Li,Song Wu,Shuguang Cui,Zhen Li | 
| 発行日 | 2023-12-12 16:00:55+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
