CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation

要約

音声駆動の 3D フェイシャル アニメーションは、クロスモーダルな挑戦的なタスクであり、研究への関心が高まっています。
話す活動中、口は激しい動きを示しますが、他の顔の領域は通常、比較的弱い活動レベルを示します。
既存のアプローチでは、単一レベルの音声特徴を顔のアニメーション全体に直接マッピングすることでプロセスを簡素化することが多く、過度に滑らかな顔の動きにつながる顔のアクティビティの強度の違いが見落とされます。
この研究では、階層的な音声特徴と、異なる領域にわたる異なる強度の顔の活動との間の時間的相関を効果的に確立する、新しいフレームワーク CorrTalk を提案します。
新しい顔活動強度メトリクスは、顔の頂点変位の短時間フーリエ変換を計算することによって得られる、顔の活動の強さと弱さを区別するために定義されます。
顔の動きの分散に基づいて、強い顔の動きと弱い顔の動きを同期的に合成するためのデュアルブランチ デコード フレームワークを提案します。これにより、より広範な強度の顔アニメーション合成が保証されます。
さらに、階層的音声特徴とさまざまな強度での顔の活動との間の時間的相関を確立するために、重み付けされた階層的特徴エンコーダが提案されており、これにより口パクでもっともらしい表情が保証される。
広範な定性的および定量的な実験とユーザー調査により、当社の CorrTalk が既存の最先端の方法よりも優れていることが示されています。
ソース コードと補足ビデオは、https://zjchu.github.io/projects/CorrTalk/ で公開されています。

要約(オリジナル)

Speech-driven 3D facial animation is a challenging cross-modal task that has attracted growing research interest. During speaking activities, the mouth displays strong motions, while the other facial regions typically demonstrate comparatively weak activity levels. Existing approaches often simplify the process by directly mapping single-level speech features to the entire facial animation, which overlook the differences in facial activity intensity leading to overly smoothed facial movements. In this study, we propose a novel framework, CorrTalk, which effectively establishes the temporal correlation between hierarchical speech features and facial activities of different intensities across distinct regions. A novel facial activity intensity metric is defined to distinguish between strong and weak facial activity, obtained by computing the short-time Fourier transform of facial vertex displacements. Based on the variances in facial activity, we propose a dual-branch decoding framework to synchronously synthesize strong and weak facial activity, which guarantees wider intensity facial animation synthesis. Furthermore, a weighted hierarchical feature encoder is proposed to establish temporal correlation between hierarchical speech features and facial activity at different intensities, which ensures lip-sync and plausible facial expressions. Extensive qualitatively and quantitatively experiments as well as a user study indicate that our CorrTalk outperforms existing state-of-the-art methods. The source code and supplementary video are publicly available at: https://zjchu.github.io/projects/CorrTalk/

arxiv情報

著者 Zhaojie Chu,Kailing Guo,Xiaofen Xing,Yilin Lan,Bolun Cai,Xiangmin Xu
発行日 2023-10-17 14:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CV パーマリンク