StyleFaceV: Face Video Generation via Decomposing and Recomposing Pretrained StyleGAN3

要約

リアルな生成顔ビデオ合成は、コンピュータ ビジョンとグラフィックス コミュニティの両方で長い間追求されてきました。
ただし、既存の顔ビデオ生成方法では、顔のアイデンティティがドリフトしたり、不自然な動きをしたりする低品質のフレームが生成される傾向があります。
これらの課題に取り組むために、私たちは StyleFaceV という原則に基づいたフレームワークを提案します。これは、鮮やかな動きで忠実度の高いアイデンティティ保持顔ビデオを生成します。
私たちの核となる洞察は、外観とポーズ情報を分解し、StyleGAN3 の潜在空間でそれらを再構成して、安定した動的な結果を生成することです。
具体的には、StyleGAN3 は忠実度の高い顔画像を生成するための強力な優先順位を提供しますが、潜在空間は本質的に絡み合っています。
その潜在的な性質を吟味することで、表情と動きの複雑な組み合わせを可能にする分解と再構成のデザインを提案します。
さらに、分解された潜在的な特徴に基づいて時間依存モデルが構築され、現実的で時間的に一貫した顔のビデオを生成できる妥当なモーション シーケンスがサンプリングされます。
特に、当社のパイプラインは、静止画像と高品質のビデオ データの両方で共同トレーニング戦略を使用してトレーニングされているため、データ効率が高くなります。
広範な実験により、私たちのフレームワークが最先端の顔ビデオ生成結果を質的および量的に達成することが実証されています。
特に、StyleFaceV は、高解像度のトレーニング ビデオがなくても、リアルな $1024\times1024$ の顔ビデオを生成できます。

要約(オリジナル)

Realistic generative face video synthesis has long been a pursuit in both computer vision and graphics community. However, existing face video generation methods tend to produce low-quality frames with drifted facial identities and unnatural movements. To tackle these challenges, we propose a principled framework named StyleFaceV, which produces high-fidelity identity-preserving face videos with vivid movements. Our core insight is to decompose appearance and pose information and recompose them in the latent space of StyleGAN3 to produce stable and dynamic results. Specifically, StyleGAN3 provides strong priors for high-fidelity facial image generation, but the latent space is intrinsically entangled. By carefully examining its latent properties, we propose our decomposition and recomposition designs which allow for the disentangled combination of facial appearance and movements. Moreover, a temporal-dependent model is built upon the decomposed latent features, and samples reasonable sequences of motions that are capable of generating realistic and temporally coherent face videos. Particularly, our pipeline is trained with a joint training strategy on both static images and high-quality video data, which is of higher data efficiency. Extensive experiments demonstrate that our framework achieves state-of-the-art face video generation results both qualitatively and quantitatively. Notably, StyleFaceV is capable of generating realistic $1024\times1024$ face videos even without high-resolution training videos.

arxiv情報

著者 Haonan Qiu,Yuming Jiang,Hang Zhou,Wayne Wu,Ziwei Liu
発行日 2022-08-16 17:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク