要約
我々は、人物生成型ニューラル・トーキングヘッド合成システムFree-HeadGANを発表する。我々は、3Dモーファブルモデルのような顔の強い統計的事前分布を用いず、疎な3D顔ランドマークで顔をモデル化することで、最先端の生成性能を達成することができることを示す。本手法は、3Dポーズと顔の表情の他に、運転する俳優の視線をソースIDに完全に転送することが可能である。このパイプラインは、3Dポーズと表情に関連する変形を回帰する正準3Dキーポイント推定器、視線推定ネットワーク、HeadGANのアーキテクチャを基にした生成器の3つのコンポーネントから構成されています。さらに、複数の元画像が利用可能な場合、アテンション機構を用いた数ショット学習に対応するために、我々のジェネレータを拡張する実験を行っている。本システムは、最新の再現・モーション転送モデルと比較して、より高いフォトリアリズムと優れたアイデンティティ保存を実現し、かつ明示的な視線制御を提供することができます。
要約(オリジナル)
We present Free-HeadGAN, a person-generic neural talking head synthesis system. We show that modeling faces with sparse 3D facial landmarks are sufficient for achieving state-of-the-art generative performance, without relying on strong statistical priors of the face, such as 3D Morphable Models. Apart from 3D pose and facial expressions, our method is capable of fully transferring the eye gaze, from a driving actor to a source identity. Our complete pipeline consists of three components: a canonical 3D key-point estimator that regresses 3D pose and expression-related deformations, a gaze estimation network and a generator that is built upon the architecture of HeadGAN. We further experiment with an extension of our generator to accommodate few-shot learning using an attention mechanism, in case more than one source images are available. Compared to the latest models for reenactment and motion transfer, our system achieves higher photo-realism combined with superior identity preservation, while offering explicit gaze control.
arxiv情報
著者 | Michail Christos Doukas,Evangelos Ververas,Viktoriia Sharmanska,Stefanos Zafeiriou |
発行日 | 2022-08-03 16:46:08+00:00 |
arxivサイト | arxiv_id(pdf) |