MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

要約

トーキングフェイス生成 (TFG) は、ターゲット ID の顔をアニメーション化して、リアルなトーキングビデオを作成することを目的としています。
パーソナライズされた TFG は、合成結果の知覚的な同一性の類似性 (外観と話し方の観点から) を強調するバリアントです。
これまでの研究では通常、各アイデンティティの個別の神経放射フィールド (NeRF) を学習してその静的情報と動的情報を暗黙的に保存することでこの問題を解決していましたが、アイデンティティごと、トレーニングごとのフレームワークと、
限られたトレーニングデータ。
この目的を達成するために、私たちは、NeRF ベースの個人に依存しない汎用モデルからの豊富な知識を活用して、パーソナライズされた TFG の効率と堅牢性を向上させる最初の試みである MimicTalk を提案します。
具体的には、(1) まずベースモデルとして人物に依存しない 3D TFG モデルを考案し、それを特定のアイデンティティに適応させることを提案します。
(2) モデルがパーソナライズされた静的な外観と顔の動的な特徴を学習できるようにする静的-動的-ハイブリッド適応パイプラインを提案します。
(3)パーソナライズされた会話スタイルの顔の動きを生成するために、明示的なスタイル表現による情報損失なしに、参照ビデオで提供される暗黙的な会話スタイルを模倣する、コンテキスト内の様式化された音声から動きへのモデルを提案します。
目に見えないアイデンティティへの適応プロセスは 15 分で実行でき、これは以前の個人依存の方法より 47 倍高速です。
実験の結果、MimicTalk はビデオ品質、効率、表現力に関して以前の基準を上回っていることが示されています。
ソース コードとビデオ サンプルは https://mimictalk.github.io で入手できます。

要約(オリジナル)

Talking face generation (TFG) aims to animate a target identity’s face to create realistic talking videos. Personalized TFG is a variant that emphasizes the perceptual identity similarity of the synthesized result (from the perspective of appearance and talking style). While previous works typically solve this problem by learning an individual neural radiance field (NeRF) for each identity to implicitly store its static and dynamic information, we find it inefficient and non-generalized due to the per-identity-per-training framework and the limited training data. To this end, we propose MimicTalk, the first attempt that exploits the rich knowledge from a NeRF-based person-agnostic generic model for improving the efficiency and robustness of personalized TFG. To be specific, (1) we first come up with a person-agnostic 3D TFG model as the base model and propose to adapt it into a specific identity; (2) we propose a static-dynamic-hybrid adaptation pipeline to help the model learn the personalized static appearance and facial dynamic features; (3) To generate the facial motion of the personalized talking style, we propose an in-context stylized audio-to-motion model that mimics the implicit talking style provided in the reference video without information loss by an explicit style representation. The adaptation process to an unseen identity can be performed in 15 minutes, which is 47 times faster than previous person-dependent methods. Experiments show that our MimicTalk surpasses previous baselines regarding video quality, efficiency, and expressiveness. Source code and video samples are available at https://mimictalk.github.io .

arxiv情報

著者 Zhenhui Ye,Tianyun Zhong,Yi Ren,Ziyue Jiang,Jiawei Huang,Rongjie Huang,Jinglin Liu,Jinzheng He,Chen Zhang,Zehan Wang,Xize Chen,Xiang Yin,Zhou Zhao
発行日 2024-10-15 16:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク