SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting

要約

現実的で音声駆動型のトーキングヘッドビデオの統合において高い同期を達成することは、重要な課題です。
リアルなトーキングヘッドには、被験者のアイデンティティ、唇の動き、表情、ヘッドポーズの同期された調整が必要です。
これらの同期がないことは根本的な欠陥であり、非現実的な結果につながります。
現実的なトーキングヘッドを作成する際に「悪魔」と特定された同期の重要な問題に対処するために、Gaussian Splattingを備えたダイナミックポートレートレンダラーを特徴として、一貫した被験者のアイデンティティ保存と、3Dの顔面のブレンドシェープモデルを使用して音声を使用して音声を使用して唇の動きを整列させるフェイスシンクコントローラーを確保します。
自然の頭の動きを確保するために、ヘッドポーズを最適化するためにより大きな安定性を最適化するヘッドシンクスタビライザーを提案します。
さらに、Synctalk ++は、発現ジェネレーターと胴体修復器を組み込むことにより、分散型(OOD)オーディオへの堅牢性を高め、音声に合わせた表情とシームレスな胴体領域を生成します。
私たちのアプローチは、フレーム全体の視覚的詳細の一貫性と連続性を維持し、レンダリング速度と品質を大幅に向上させ、毎秒最大101フレームを達成します。
広範な実験とユーザー研究は、Synctalk ++が同期とリアリズムの最先端の方法よりも優れていることを示しています。
補足ビデオを見ることをお勧めします:https://ziqiaopeng.github.io/synctalk++。

要約(オリジナル)

Achieving high synchronization in the synthesis of realistic, speech-driven talking head videos presents a significant challenge. A lifelike talking head requires synchronized coordination of subject identity, lip movements, facial expressions, and head poses. The absence of these synchronizations is a fundamental flaw, leading to unrealistic results. To address the critical issue of synchronization, identified as the ”devil” in creating realistic talking heads, we introduce SyncTalk++, which features a Dynamic Portrait Renderer with Gaussian Splatting to ensure consistent subject identity preservation and a Face-Sync Controller that aligns lip movements with speech while innovatively using a 3D facial blendshape model to reconstruct accurate facial expressions. To ensure natural head movements, we propose a Head-Sync Stabilizer, which optimizes head poses for greater stability. Additionally, SyncTalk++ enhances robustness to out-of-distribution (OOD) audio by incorporating an Expression Generator and a Torso Restorer, which generate speech-matched facial expressions and seamless torso regions. Our approach maintains consistency and continuity in visual details across frames and significantly improves rendering speed and quality, achieving up to 101 frames per second. Extensive experiments and user studies demonstrate that SyncTalk++ outperforms state-of-the-art methods in synchronization and realism. We recommend watching the supplementary video: https://ziqiaopeng.github.io/synctalk++.

arxiv情報

著者 Ziqiao Peng,Wentao Hu,Junyuan Ma,Xiangyu Zhu,Xiaomei Zhang,Hao Zhao,Hui Tian,Jun He,Hongyan Liu,Zhaoxin Fan
発行日 2025-06-17 17:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク