要約
この論文では、ブレンド形状ジオメトリ、ダイナミック テクスチャ、およびニューラル レンダリングに基づいたフォトリアリスティックな頭部モデルのテキスト/音声駆動アニメーションに対する新しいアプローチを紹介します。
ジオメトリとテクスチャの VAE をトレーニングすると、潜在的な特徴ベクトルから顔の表情を正確にキャプチャし、現実的に合成するためのパラメトリック モデルが得られます。
私たちのアニメーション方法は、テキストまたは音声を一連のアニメーション パラメーターに変換する条件付き CNN に基づいています。
これまでのアプローチとは対照的に、私たちのアニメーション モデルは、教師なしの方法でさまざまな演技スタイルの解きほぐし/合成を学習し、トレーニング シーケンスの内容を説明する音声ラベルのみを必要とします。
現実的なリアルタイム レンダリングのために、改善されたピクセル カラーと前景マットを計算することによってラスタライズ ベースのレンダリングを洗練する U-Net をトレーニングします。
私たちのフレームワークを頭部モデリングや顔アニメーションの最近の手法と定性的/定量的に比較し、ユーザー調査で知覚されるレンダリング/アニメーションの品質を評価します。これは、最先端のアプローチと比較して大幅な改善が示されています。
要約(オリジナル)
This paper presents a novel approach for text/speech-driven animation of a photo-realistic head model based on blend-shape geometry, dynamic textures, and neural rendering. Training a VAE for geometry and texture yields a parametric model for accurate capturing and realistic synthesis of facial expressions from a latent feature vector. Our animation method is based on a conditional CNN that transforms text or speech into a sequence of animation parameters. In contrast to previous approaches, our animation model learns disentangling/synthesizing different acting-styles in an unsupervised manner, requiring only phonetic labels that describe the content of training sequences. For realistic real-time rendering, we train a U-Net that refines rasterization-based renderings by computing improved pixel colors and a foreground matte. We compare our framework qualitatively/quantitatively against recent methods for head modeling as well as facial animation and evaluate the perceived rendering/animation quality in a user-study, which indicates large improvements compared to state-of-the-art approaches
arxiv情報
著者 | Wolfgang Paier,Anna Hilsmann,Peter Eisert |
発行日 | 2023-07-10 13:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google