Model See Model Do: Speech-Driven Facial Animation with Style Control

要約

音声駆動型3D顔アニメーションは、バーチャルアバター、ゲーム、デジタルコンテンツ制作などのアプリケーションで重要な役割を果たしています。既存の手法は、正確な口唇同期を実現し、基本的な感情表現を生成することでは大きな進歩を遂げているが、ニュアンスのある演技スタイルをキャプチャし、効果的に転送することに苦労することが多い。我々は、潜在拡散モデルを参照スタイルクリップに条件付けすることで、表現力が高く、時間的に首尾一貫したフェイシャルアニメーションを生成する、新しい例ベースの生成フレームワークを提案する。スタイルリファレンスに正確に従うという課題に対処するため、スタイルベースと呼ばれる新しい条件付けメカニズムを導入する。これは、リファレンスから主要なポーズを抽出し、リップ同期の品質を損なうことなくスタイルに適合するように拡散生成プロセスを加法的に導く。このアプローチにより、生成されたアニメーションが入力音声と密接に一致することを保証しながら、モデルが微妙な文体の手がかりを捉えることを可能にする。この手法は、様々なスピーチシナリオにおいて、優れた口唇同期を達成しながら、希望するスタイルを忠実に再現する有効性を、広範な定性的、定量的、知覚的評価により実証している。

要約(オリジナル)

Speech-driven 3D facial animation plays a key role in applications such as virtual avatars, gaming, and digital content creation. While existing methods have made significant progress in achieving accurate lip synchronization and generating basic emotional expressions, they often struggle to capture and effectively transfer nuanced performance styles. We propose a novel example-based generation framework that conditions a latent diffusion model on a reference style clip to produce highly expressive and temporally coherent facial animations. To address the challenge of accurately adhering to the style reference, we introduce a novel conditioning mechanism called style basis, which extracts key poses from the reference and additively guides the diffusion generation process to fit the style without compromising lip synchronization quality. This approach enables the model to capture subtle stylistic cues while ensuring that the generated animations align closely with the input speech. Extensive qualitative, quantitative, and perceptual evaluations demonstrate the effectiveness of our method in faithfully reproducing the desired style while achieving superior lip synchronization across various speech scenarios.

arxiv情報

著者 Yifang Pan,Karan Singh,Luiz Gustavo Hafemann
発行日 2025-05-02 14:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.GR, cs.LG, I.3.7 パーマリンク