ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE

要約

オーディオ駆動の 3D 顔アニメーション合成は、学術界と産業界の両方から注目を集めている活発な研究分野です。
この分野では有望な結果が得られていますが、最近のアプローチは主に口パクとアイデンティティ制御に焦点を当てており、生成プロセスにおける感情と感情制御の役割が無視されています。
その主な原因は、感情豊かな顔アニメーション データと、感情表現を伴う音声アニメーションを同時に合成できるアルゴリズムが不足していることです。
さらに、モデルの大部分は決定論的です。つまり、同じオーディオ入力が与えられると、同じ出力モーションが生成されます。
私たちは、感情と非決定性が、多様で感情豊かな顔のアニメーションを生成するために重要であると主張します。
この論文では、2 段階の VQ-VAE モデルと感情豊かな顔アニメーション データセット 3DMEAD を使用した、感情制御可能な音声駆動型 3D 顔アニメーション合成のための非決定論的ニューラル ネットワーク アプローチである ProbTalk3D を提案します。
私たちは、結果を客観的、定性的に、そして知覚的なユーザー調査で評価することにより、最近の 3D 顔アニメーション合成アプローチに対するモデルの広範な比較分析を提供します。
確率的出力の評価により適したいくつかの客観的な指標を強調し、主観的な評価には実際のデータとグラウンド トゥルース データの両方を使用します。
私たちの知る限り、これは、豊富な感情データセットと、感情ラベルと強度レベルによる感情制御を組み込んだ最初の非決定的 3D 顔アニメーション合成手法です。
私たちの評価は、提案されたモデルが最先端の感情制御の決定論的モデルおよび非決定論的モデルと比較して優れたパフォーマンスを達成することを示しています。
品質を判断するために補足ビデオを視聴することをお勧めします。
コードベース全体は公開されています (https://github.com/uuembodiedsocialai/ProbTalk3D/)。

要約(オリジナル)

Audio-driven 3D facial animation synthesis has been an active field of research with attention from both academia and industry. While there are promising results in this area, recent approaches largely focus on lip-sync and identity control, neglecting the role of emotions and emotion control in the generative process. That is mainly due to the lack of emotionally rich facial animation data and algorithms that can synthesize speech animations with emotional expressions at the same time. In addition, majority of the models are deterministic, meaning given the same audio input, they produce the same output motion. We argue that emotions and non-determinism are crucial to generate diverse and emotionally-rich facial animations. In this paper, we propose ProbTalk3D a non-deterministic neural network approach for emotion controllable speech-driven 3D facial animation synthesis using a two-stage VQ-VAE model and an emotionally rich facial animation dataset 3DMEAD. We provide an extensive comparative analysis of our model against the recent 3D facial animation synthesis approaches, by evaluating the results objectively, qualitatively, and with a perceptual user study. We highlight several objective metrics that are more suitable for evaluating stochastic outputs and use both in-the-wild and ground truth data for subjective evaluation. To our knowledge, that is the first non-deterministic 3D facial animation synthesis method incorporating a rich emotion dataset and emotion control with emotion labels and intensity levels. Our evaluation demonstrates that the proposed model achieves superior performance compared to state-of-the-art emotion-controlled, deterministic and non-deterministic models. We recommend watching the supplementary video for quality judgement. The entire codebase is publicly available (https://github.com/uuembodiedsocialai/ProbTalk3D/).

arxiv情報

著者 Sichun Wu,Kazi Injamamul Haque,Zerrin Yumak
発行日 2024-09-12 11:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク