SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation

要約

オーディオによって駆動される話すアバターを生成することは、依然として大きな課題です。
既存の手法は通常、高い計算コストを必要とし、顔の詳細やリアリズムが十分でないことが多いため、高いリアルタイム パフォーマンスとビジュアル品質を要求するアプリケーションには適していません。
さらに、一部の方法では唇の動きを同期させることができますが、特に沈黙期間における顔の表情と上半身の動きの一貫性という問題に依然として直面しています。
この論文では、汎用化された音声とポーズのマッチングと音声と表情の同期を組み合わせることにより、音声駆動型で安定したリアルタイムの話すアバターの生成を実現する初の NeRF ベースの手法である SyncAnimation を紹介します。
AudioPose Syncer と AudioEmotion Syncer を統合することで、SyncAnimation は高精度のポーズと表情の生成を実現し、音声と同期した上半身、頭、唇の形状を段階的に生成します。
さらに、高同期ヒューマンレンダラーにより頭部と上半身をシームレスに統合し、オーディオシンクリップを実現します。
プロジェクト ページは https://syncanimation.github.io にあります。

要約(オリジナル)

Generating talking avatar driven by audio remains a significant challenge. Existing methods typically require high computational costs and often lack sufficient facial detail and realism, making them unsuitable for applications that demand high real-time performance and visual quality. Additionally, while some methods can synchronize lip movement, they still face issues with consistency between facial expressions and upper body movement, particularly during silent periods. In this paper, we introduce SyncAnimation, the first NeRF-based method that achieves audio-driven, stable, and real-time generation of speaking avatar by combining generalized audio-to-pose matching and audio-to-expression synchronization. By integrating AudioPose Syncer and AudioEmotion Syncer, SyncAnimation achieves high-precision poses and expression generation, progressively producing audio-synchronized upper body, head, and lip shapes. Furthermore, the High-Synchronization Human Renderer ensures seamless integration of the head and upper body, and achieves audio-sync lip. The project page can be found at https://syncanimation.github.io

arxiv情報

著者 Yujian Liu,Shidang Xu,Jing Guo,Dingbin Wang,Zairan Wang,Xianfeng Tan,Xiaoli Liu
発行日 2025-01-24 17:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク