要約
既存のオーディオ駆動型 3D フェイシャル アニメーション手法のほとんどは、詳細な表情や頭のポーズが不足しているため、人間とロボットの相互作用の経験が不十分でした。
この論文では、階層的なオーディオ頂点注意を利用することにより、新しい姿勢制御可能な 3D 顔アニメーション合成方法を提案します。
リアルで詳細な表現を合成するために、オーディオ信号をグローバルな潜在機能とローカルの頂点ごとの制御機能の両方にエンコードする階層的分解戦略が提案されています。
次に、ローカルおよびグローバルのオーディオ機能を頂点の空間機能と組み合わせて使用し、顔モデルの固有の空間トポロジー構造と対応するオーディオのセマンティック機能を融合することにより、グラフ畳み込みニューラル ネットワークを介して最終的な一貫した顔のアニメーションを予測します。
ポーズ制御可能なアニメーションを実現するために、2D トーキングフェイス技術を利用した新しいポーズ属性拡張方法を導入します。
実験結果は、提案された方法がよりリアルな顔の表情と頭の姿勢の動きを生成できることを示しています。
定性的および定量的実験は、提案された方法が最先端の方法に対して競争力のあるパフォーマンスを達成することを示しています。
要約(オリジナル)
Most of the existing audio-driven 3D facial animation methods suffered from the lack of detailed facial expression and head pose, resulting in unsatisfactory experience of human-robot interaction. In this paper, a novel pose-controllable 3D facial animation synthesis method is proposed by utilizing hierarchical audio-vertex attention. To synthesize real and detailed expression, a hierarchical decomposition strategy is proposed to encode the audio signal into both a global latent feature and a local vertex-wise control feature. Then the local and global audio features combined with vertex spatial features are used to predict the final consistent facial animation via a graph convolutional neural network by fusing the intrinsic spatial topology structure of the face model and the corresponding semantic feature of the audio. To accomplish pose-controllable animation, we introduce a novel pose attribute augmentation method by utilizing the 2D talking face technique. Experimental results indicate that the proposed method can produce more realistic facial expressions and head posture movements. Qualitative and quantitative experiments show that the proposed method achieves competitive performance against state-of-the-art methods.
arxiv情報
著者 | Bin Liu,Xiaolin Wei,Bo Li,Junjie Cao,Yu-Kun Lai |
発行日 | 2023-02-24 09:36:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google