要約
顔の画像間でポーズと表現を転送する方法を提案します。
ソースとターゲットフェイスのポートレートが与えられた場合、モデルは、ソースフェイスイメージのポーズと式がターゲットアイデンティティに転送される出力画像を生成します。
アーキテクチャは、2つのエンコーダと2つの入力をStyleGan2の潜在空間に投影するマッピングネットワークで構成され、最終的に出力が生成されます。
トレーニングは、多くの個人のビデオシーケンスから自立しています。
手動のラベル付けは必要ありません。
私たちのモデルは、制御可能なポーズと表現を持つランダムアイデンティティの統合を可能にします。
リアルに近いパフォーマンスが達成されます。
要約(オリジナル)
We propose a method to transfer pose and expression between face images. Given a source and target face portrait, the model produces an output image in which the pose and expression of the source face image are transferred onto the target identity. The architecture consists of two encoders and a mapping network that projects the two inputs into the latent space of StyleGAN2, which finally generates the output. The training is self-supervised from video sequences of many individuals. Manual labeling is not required. Our model enables the synthesis of random identities with controllable pose and expression. Close-to-real-time performance is achieved.
arxiv情報
著者 | Petr Jahoda,Jan Cech |
発行日 | 2025-04-17 15:29:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google