SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation


既存の手法は通常、高い計算コストを必要とし、顔の詳細やリアリズムが十分でないことが多いため、高いリアルタイム パフォーマンスとビジュアル品質を要求するアプリケーションには適していません。
この論文では、汎用化された音声とポーズのマッチングと音声と表情の同期を組み合わせることにより、音声駆動型で安定したリアルタイムの話すアバターの生成を実現する初の NeRF ベースの手法である SyncAnimation を紹介します。
AudioPose Syncer と AudioEmotion Syncer を統合することで、SyncAnimation は高精度のポーズと表情の生成を実現し、音声と同期した上半身、頭、唇の形状を段階的に生成します。
プロジェクト ページは にあります。


Generating talking avatar driven by audio remains a significant challenge. Existing methods typically require high computational costs and often lack sufficient facial detail and realism, making them unsuitable for applications that demand high real-time performance and visual quality. Additionally, while some methods can synchronize lip movement, they still face issues with consistency between facial expressions and upper body movement, particularly during silent periods. In this paper, we introduce SyncAnimation, the first NeRF-based method that achieves audio-driven, stable, and real-time generation of speaking avatar by combining generalized audio-to-pose matching and audio-to-expression synchronization. By integrating AudioPose Syncer and AudioEmotion Syncer, SyncAnimation achieves high-precision poses and expression generation, progressively producing audio-synchronized upper body, head, and lip shapes. Furthermore, the High-Synchronization Human Renderer ensures seamless integration of the head and upper body, and achieves audio-sync lip. The project page can be found at


著者 Yujian Liu,Shidang Xu,Jing Guo,Dingbin Wang,Zairan Wang,Xianfeng Tan,Xiaoli Liu
発行日 2025-01-24 17:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク