Audio-Driven 3D Facial Animation from In-the-Wild Videos

要約

任意のオーディオ クリップが与えられると、オーディオ駆動の 3D フェイシャル アニメーションは、3D 頭の本物のような唇の動きと表情を生成することを目的としています。
既存の方法は通常、限られた数のオーディオと 3D スキャンのペアを含む限られたパブリック 3D データセットを使用してモデルをトレーニングすることに依存しています。
その結果、彼らの一般化能力は依然として制限されています。
この論文では、実際の 2D トーキングヘッド ビデオを活用して 3D 顔アニメーション モデルをトレーニングする新しい方法を提案します。
簡単にアクセスできる豊富な 2D トーキングヘッド ビデオにより、モデルに堅牢な一般化機能が備わっています。
これらのビデオを既存の 3D 顔再構成手法と組み合わせることで、私たちのモデルは一貫した忠実度の高いリップシンクの生成に優れています。
さらに、私たちのモデルはさまざまな個人の話し方のスタイルをうまく捉えており、異なる個人のスタイルを持つ 3D トーキングヘッドを生成することができます。
広範な定性的および定量的な実験結果により、私たちの方法の優位性が実証されています。

要約(オリジナル)

Given an arbitrary audio clip, audio-driven 3D facial animation aims to generate lifelike lip motions and facial expressions for a 3D head. Existing methods typically rely on training their models using limited public 3D datasets that contain a restricted number of audio-3D scan pairs. Consequently, their generalization capability remains limited. In this paper, we propose a novel method that leverages in-the-wild 2D talking-head videos to train our 3D facial animation model. The abundance of easily accessible 2D talking-head videos equips our model with a robust generalization capability. By combining these videos with existing 3D face reconstruction methods, our model excels in generating consistent and high-fidelity lip synchronization. Additionally, our model proficiently captures the speaking styles of different individuals, allowing it to generate 3D talking-heads with distinct personal styles. Extensive qualitative and quantitative experimental results demonstrate the superiority of our method.

arxiv情報

著者 Liying Lu,Tianke Zhang,Yunfei Liu,Xuangeng Chu,Yu Li
発行日 2023-06-20 13:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク