要約
しかし、入力音声に基づく唇形状の編集において、正確な唇と音声の同期と高い視覚的品質は依然として困難である。本論文では、音声駆動型リップモーション生成と視覚的アピアランス合成からなる、トーキングフェイス生成のための新しい2段階フレームワークJoyGenを紹介する。第一段階では、3D再構成モデルとaudio2motionモデルが、それぞれアイデンティティ係数と表情係数を予測する。次に、音声特徴を顔の深度マップと統合することで、顔生成における正確な唇と音声の同期のための包括的な監視を提供する。さらに、130時間の高品質ビデオを含む中国のトーキングフェイスデータセットを構築した。JoyGenは、オープンソースのHDTFデータセットと我々が作成したデータセットで学習される。実験結果は、我々の手法によって達成された優れた口唇音声同期と視覚的品質を実証している。
要約(オリジナル)
Significant progress has been made in talking-face video generation research; however, precise lip-audio synchronization and high visual quality remain challenging in editing lip shapes based on input audio. This paper introduces JoyGen, a novel two-stage framework for talking-face generation, comprising audio-driven lip motion generation and visual appearance synthesis. In the first stage, a 3D reconstruction model and an audio2motion model predict identity and expression coefficients respectively. Next, by integrating audio features with a facial depth map, we provide comprehensive supervision for precise lip-audio synchronization in facial generation. Additionally, we constructed a Chinese talking-face dataset containing 130 hours of high-quality video. JoyGen is trained on the open-source HDTF dataset and our curated dataset. Experimental results demonstrate superior lip-audio synchronization and visual quality achieved by our method.
arxiv情報
著者 | Qili Wang,Dajiang Wu,Zihang Xu,Junshi Huang,Jun Lv |
発行日 | 2025-01-03 13:14:52+00:00 |
arxivサイト | arxiv_id(pdf) |