要約
音声駆動型の3Dフェイシャルアニメーションは、任意のオーディオクリップから3Dヘッドモデルの現実的な唇の動きと表情を生成することを目的としています。
既存の拡散ベースの方法は自然な動きを生成することができますが、その遅い発電速度はアプリケーションの可能性を制限します。
このペーパーでは、スピーチからマルチスケールモーションコードブックまでのマッピングを学習することにより、非常に同期したリップの動きとリアルなヘッドポーズと目の瞬きをリアルタイムで生成する新しい自己回帰モデルを紹介します。
さらに、私たちのモデルは、サンプルモーションシーケンスを使用して目に見えないスピーキングスタイルに適応し、トレーニング中に見られるアイデンティティを超えたユニークな個人スタイルを持つ3Dトーキングアバターの作成を可能にします。
広範な評価とユーザー研究は、私たちの方法が、唇の同期の精度と知覚品質の既存のアプローチよりも優れていることを示しています。
要約(オリジナル)
Speech-driven 3D facial animation aims to generate realistic lip movements and facial expressions for 3D head models from arbitrary audio clips. Although existing diffusion-based methods are capable of producing natural motions, their slow generation speed limits their application potential. In this paper, we introduce a novel autoregressive model that achieves real-time generation of highly synchronized lip movements and realistic head poses and eye blinks by learning a mapping from speech to a multi-scale motion codebook. Furthermore, our model can adapt to unseen speaking styles using sample motion sequences, enabling the creation of 3D talking avatars with unique personal styles beyond the identities seen during training. Extensive evaluations and user studies demonstrate that our method outperforms existing approaches in lip synchronization accuracy and perceived quality.
arxiv情報
著者 | Xuangeng Chu,Nabarun Goswami,Ziteng Cui,Hanqin Wang,Tatsuya Harada |
発行日 | 2025-02-27 17:49:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google