Finding Directions in GAN’s Latent Space for Neural Face Reenactment

要約

本論文は、顔/頭部再現に関するもので、ターゲットの顔のポーズ(3次元の頭の向きと表情)をソースの顔に転送することを目的としています。従来の手法では、顔の同一性とポーズの分離のための埋め込みネットワークの学習に焦点が当てられていましたが、これはかなり困難な作業であり、生成される画像の品質を低下させることが分かっています。本手法では、高画質な顔画像を生成できることが確認されている、あらかじめ学習させたGANを用いることで、このようなネットワークの学習をバイパスするアプローチをとっています。GANは制御性が弱いという特徴があるため、我々のアプローチの核となるのは、潜在的なGAN空間のどの方向が顔の姿勢や表情の変化を制御するかを発見する手法である。我々は、顔のポーズ、アイデンティティ、表情の方向性を分離した3次元形状モデルを用いて、そのような方向性を学習する簡単なパイプラインを提示します。さらに、GAN潜在空間に実画像を埋め込むことで、本手法が実世界の顔の再現にうまく利用できることを示す。本手法は、単一の元画像(ワンショット)を用いること、複数人での再現が可能であることなど、いくつかの優れた特性を有している。本手法は、標準的なベンチマークであるVoxCeleb1, 2において、定性的および定量的な結果から、多くの場合、最先端手法による再現顔よりはるかに高い品質の再現顔を生成することが確認されています。ソースコードは、https://github.com/StelaBou/stylegan_directions_face_reenactment で公開されています。

要約(オリジナル)

This paper is on face/head reenactment where the goal is to transfer the facial pose (3D head orientation and expression) of a target face to a source face. Previous methods focus on learning embedding networks for identity and pose disentanglement which proves to be a rather hard task, degrading the quality of the generated images. We take a different approach, bypassing the training of such networks, by using (fine-tuned) pre-trained GANs which have been shown capable of producing high-quality facial images. Because GANs are characterized by weak controllability, the core of our approach is a method to discover which directions in latent GAN space are responsible for controlling facial pose and expression variations. We present a simple pipeline to learn such directions with the aid of a 3D shape model which, by construction, already captures disentangled directions for facial pose, identity and expression. Moreover, we show that by embedding real images in the GAN latent space, our method can be successfully used for the reenactment of real-world faces. Our method features several favorable properties including using a single source image (one-shot) and enabling cross-person reenactment. Our qualitative and quantitative results show that our approach often produces reenacted faces of significantly higher quality than those produced by state-of-the-art methods for the standard benchmarks of VoxCeleb1 & 2. Source code is available at: https://github.com/StelaBou/stylegan_directions_face_reenactment

arxiv情報

著者 Stella Bounareli,Vasileios Argyriou,Georgios Tzimiropoulos
発行日 2022-10-06 15:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク