要約
フェイスアニメーションは、ポーズや表情がアニメーションするフォトリアリスティックな人物映像の制作を目的としている。そのため、ピクセルやフィーチャをソースからターゲットにワープさせるための変位フィールドを生成することが一般的である。しかし、これまでの研究では、最適とは言い難い変位が生成されることが多かった。本研究では、ジオメトリドリブンモデルを提示し、ガイダンスとして2つのジオメトリパターンを提案する。3D顔面レンダリング変位マップとポーズ付きニューラルコードである。このモデルは、オプションとして、変位推定のためのガイダンスとしてどちらかのパターンを使用することができる。顔モデルによってカバーされていない場所(例えば、髪)の変位をモデル化するために、我々は文脈情報のためにソース画像の特徴に頼り、解像度を上げて特徴ワープと変位推定を交互に行うプログレッシブワープモジュールを提案している。提案するモデルが高い忠実度で人物映像を合成できることを示し、VoxCeleb1およびVoxCeleb2データセットにおいて、交差同一人物再構成と同一人物再構成の両方で新たな最先端結果を達成することを示す。
要約(オリジナル)
Face animation aims at creating photo-realistic portrait videos with animated poses and expressions. A common practice is to generate displacement fields that are used to warp pixels and features from source to target. However, prior attempts often produce sub-optimal displacements. In this work, we present a geometry driven model and propose two geometric patterns as guidance: 3D face rendered displacement maps and posed neural codes. The model can optionally use one of the patterns as guidance for displacement estimation. To model displacements at locations not covered by the face model (e.g., hair), we resort to source image features for contextual information and propose a progressive warping module that alternates between feature warping and displacement estimation at increasing resolutions. We show that the proposed model can synthesize portrait videos with high fidelity and achieve the new state-of-the-art results on the VoxCeleb1 and VoxCeleb2 datasets for both cross identity and same identity reconstruction.
arxiv情報
著者 | Yatao Zhong,Faezeh Amjadi,Ilya Zharkov |
発行日 | 2022-10-05 17:07:06+00:00 |
arxivサイト | arxiv_id(pdf) |