要約
オーディオ主導のトーキング ヘッドの生成は、2D コンテンツから 3D コンテンツに進歩しています。
特に、Neural Radiance Field (NeRF) は、高品質の 3D トーキング ヘッド出力を合成する手段として注目を集めています。
残念ながら、この NeRF ベースのアプローチでは通常、各 ID に対して多数のペアになったオーディオビジュアル データが必要となるため、この方法のスケーラビリティが制限されます。
単一の画像を使用してオーディオ駆動の 3D トーキング ヘッド アニメーションを生成する試みがなされてきましたが、画像内の不明瞭な領域に関する情報が不十分なため、結果が満足のいくものにならないことがよくあります。
このペーパーでは、顔のアニメーションが主に正面を向いた視点で合成される、ワンショットのオーディオ駆動領域における 3D の一貫性の見落とされている側面に対処することに主に焦点を当てています。
我々は、高品質の 3D 対応トーキングヘッドの作成を可能にする新しい手法 NeRFFaceSpeech を提案します。
NeRF と組み合わせた生成モデルの事前知識を使用することで、私たちの方法は、単一の画像に対応する 3D 一貫性のある顔の特徴空間を作成できます。
当社の空間同期手法では、パラメトリック顔モデルの音声相関頂点ダイナミクスを採用し、光線変形を通じて静止画像の特徴を動的なビジュアルに変換し、リアルな 3D 顔の動きを保証します。
さらに、一枚の画像だけでは得られない口内領域の不足情報を補うことができるLipaintNetも紹介します。
ネットワークは、追加データなしで生成機能を利用することにより、自己監視型の方法でトレーニングされます。
包括的な実験は、以前のアプローチと比較して、3D の一貫性が強化された単一の画像から音声駆動トーキングヘッドを生成する際の私たちの方法の優位性を実証しています。
さらに、これまで定性的にのみ可能であった、姿勢変化に対するモデルの堅牢性を定量的に測定する方法を初めて導入します。
要約(オリジナル)
Audio-driven talking head generation is advancing from 2D to 3D content. Notably, Neural Radiance Field (NeRF) is in the spotlight as a means to synthesize high-quality 3D talking head outputs. Unfortunately, this NeRF-based approach typically requires a large number of paired audio-visual data for each identity, thereby limiting the scalability of the method. Although there have been attempts to generate audio-driven 3D talking head animations with a single image, the results are often unsatisfactory due to insufficient information on obscured regions in the image. In this paper, we mainly focus on addressing the overlooked aspect of 3D consistency in the one-shot, audio-driven domain, where facial animations are synthesized primarily in front-facing perspectives. We propose a novel method, NeRFFaceSpeech, which enables to produce high-quality 3D-aware talking head. Using prior knowledge of generative models combined with NeRF, our method can craft a 3D-consistent facial feature space corresponding to a single image. Our spatial synchronization method employs audio-correlated vertex dynamics of a parametric face model to transform static image features into dynamic visuals through ray deformation, ensuring realistic 3D facial motion. Moreover, we introduce LipaintNet that can replenish the lacking information in the inner-mouth area, which can not be obtained from a given single image. The network is trained in a self-supervised manner by utilizing the generative capabilities without additional data. The comprehensive experiments demonstrate the superiority of our method in generating audio-driven talking heads from a single image with enhanced 3D consistency compared to previous approaches. In addition, we introduce a quantitative way of measuring the robustness of a model against pose changes for the first time, which has been possible only qualitatively.
arxiv情報
著者 | Gihoon Kim,Kwanggyoon Seo,Sihun Cha,Junyong Noh |
発行日 | 2024-05-10 14:13:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google