Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial Animation

要約

音声駆動型 3D フェイシャル アニメーションは、音声と正確に同期し、独特の話し方に一致する鮮やかなフェイシャル アニメーションを合成することを目的としています。
しかし、既存の作品は主に正確な口唇同期を達成することに焦点を当てており、主題固有の話し方のモデル化を無視しており、多くの場合、非現実的な顔のアニメーションが生成されます。
私たちの知る限り、この研究は、話し方と顔の動きの意味内容の間の結合情報を調査する最初の試みです。
具体的には、革新的な話し方のもつれを解く手法を導入します。これにより、任意の被験者の話し方のエンコードが可能になり、音声駆動の顔アニメーションのより現実的な合成が可能になります。
続いて、スタイルと内容の 2 つの潜在空間をそれぞれ構築することで、顔の動きから話し方と内容のもつれのない表現を学習する \textbf{Mimic} と呼ばれる新しいフレームワークを提案します。
さらに、解きほぐされた表現の学習を促進するために、補助スタイル分類子、補助逆分類子、コンテンツ対比損失、および 1 対の潜在サイクル損失という 4 つの適切に設計された制約を導入します。これらは、アイデンティティの構築に効果的に貢献できます。
関連するスタイル空間とセマンティック関連のコンテンツ空間。
公開されている 3 つのデータセットに対して行われた広範な定性的および定量的実験により、私たちのアプローチが最先端の方法を上回り、音声駆動の 3D 顔アニメーションの多様な話し方をキャプチャできることが実証されました。
ソース コードと補足ビデオは、https://zeqing-wang.github.io/Mimic/ で公開されています。

要約(オリジナル)

Speech-driven 3D facial animation aims to synthesize vivid facial animations that accurately synchronize with speech and match the unique speaking style. However, existing works primarily focus on achieving precise lip synchronization while neglecting to model the subject-specific speaking style, often resulting in unrealistic facial animations. To the best of our knowledge, this work makes the first attempt to explore the coupled information between the speaking style and the semantic content in facial motions. Specifically, we introduce an innovative speaking style disentanglement method, which enables arbitrary-subject speaking style encoding and leads to a more realistic synthesis of speech-driven facial animations. Subsequently, we propose a novel framework called \textbf{Mimic} to learn disentangled representations of the speaking style and content from facial motions by building two latent spaces for style and content, respectively. Moreover, to facilitate disentangled representation learning, we introduce four well-designed constraints: an auxiliary style classifier, an auxiliary inverse classifier, a content contrastive loss, and a pair of latent cycle losses, which can effectively contribute to the construction of the identity-related style space and semantic-related content space. Extensive qualitative and quantitative experiments conducted on three publicly available datasets demonstrate that our approach outperforms state-of-the-art methods and is capable of capturing diverse speaking styles for speech-driven 3D facial animation. The source code and supplementary video are publicly available at: https://zeqing-wang.github.io/Mimic/

arxiv情報

著者 Hui Fu,Zeqing Wang,Ke Gong,Keze Wang,Tianshui Chen,Haojie Li,Haifeng Zeng,Wenxiong Kang
発行日 2023-12-18 01:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク