要約
音声駆動型3D顔アニメーションは広く研究されていますが、非論理的な性質とオーディオビジュアルデータの不足により、リアルさと鮮やかさを達成するためにはまだギャップがあります。既存の研究は、クロスモーダル・マッピングを回帰タスクに定式化するのが一般的で、これは過剰に平滑化された顔の動きをもたらす回帰対平均問題に悩まされています。本論文では、音声駆動型フェイシャルアニメーションを、学習したコードブックの有限代理空間におけるコードクエリタスクとすることを提案し、クロスモーダル・マッピングの不確実性を低減することにより、生成されるモーションの鮮明さを効果的に促進させる。コードブックは、実際の顔の動きに対する自己再構成によって学習されるため、現実的な顔の動きの事前分布を埋め込むことができる。また、時間自己回帰モデルを用いて、入力音声信号から顔の動きを逐次合成することにより、リップシンクを保証するとともに、もっともらしい顔の表情を生成する。本アプローチは、定性的にも定量的にも、現在の最先端手法を凌駕することを実証する。また、ユーザー調査により、本手法の知覚的品質の高さが証明された。
要約(オリジナル)
Speech-driven 3D facial animation has been widely studied, yet there is still a gap to achieving realism and vividness due to the highly ill-posed nature and scarcity of audio-visual data. Existing works typically formulate the cross-modal mapping into a regression task, which suffers from the regression-to-mean problem leading to over-smoothed facial motions. In this paper, we propose to cast speech-driven facial animation as a code query task in a finite proxy space of the learned codebook, which effectively promotes the vividness of the generated motions by reducing the cross-modal mapping uncertainty. The codebook is learned by self-reconstruction over real facial motions and thus embedded with realistic facial motion priors. Over the discrete motion space, a temporal autoregressive model is employed to sequentially synthesize facial motions from the input speech signal, which guarantees lip-sync as well as plausible facial expressions. We demonstrate that our approach outperforms current state-of-the-art methods both qualitatively and quantitatively. Also, a user study further justifies our superiority in perceptual quality.
arxiv情報
著者 | Jinbo Xing,Menghan Xia,Yuechen Zhang,Xiaodong Cun,Jue Wang,Tien-Tsin Wong |
発行日 | 2023-01-06 05:04:32+00:00 |
arxivサイト | arxiv_id(pdf) |