Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering

要約

芸術的なビデオ ポートレートの生成は、コンピューター グラフィックスとビジョンの分野で重要かつ求められているタスクです。
運転可能なポートレートを作成および編集するための教育編集モデルと NeRF または StyleGAN を統合するさまざまな方法が開発されていますが、これらのアプローチはいくつかの課題に直面しています。
多くの場合、大規模なデータセットに大きく依存し、大規模なカスタマイズ プロセスが必要となり、画質が低下することがよくあります。
上記の問題に対処するために、動的で運転可能なポートレートビデオを作成する StyleGAN の能力を強化する遅延ニューラル レンダリングによる効率的な単調ビデオ スタイル アバター (エモ アバター) を提案します。
私たちは 2 段階の遅延ニューラル レンダリング パイプラインを提案しました。
最初の段階では、少数ショットの PTI 初期化を利用して、ビデオからサンプリングされたいくつかの極端なポーズを通じて StyleGAN ジェネレーターを初期化し、ターゲットのポートレートから整列した顔の一貫した表現をキャプチャします。
第 2 段階では、モーション認識テクスチャの動的表現フローによって変形された UV マップからの高周波テクスチャ サンプリングのためのラプラシアン ピラミッドを提案します。統合前に胴体機能を提供し、ポートレート ビデオ レンダリング用の完全な上半身を生成する StyleGAN の機能を強化します。

Emo-Avatar は、既存の方法と比較して、スタイルのカスタマイズ時間を数時間からわずか 5 分に短縮します。
さらに、Emo-Avatar は編集に 1 つの参照画像のみを必要とし、セマンティック不変の CLIP ガイダンスによる領域認識の対照学習を採用し、一貫した高解像度の出力とアイデンティティの保持を保証します。
Emo-Avatar は、定量的評価と定性的評価の両方を通じて、トレーニング効率、レンダリングの品質、自己再現および相互再現における編集可能性の点で、既存の方法よりも優れたパフォーマンスを実証します。

要約(オリジナル)

Artistic video portrait generation is a significant and sought-after task in the fields of computer graphics and vision. While various methods have been developed that integrate NeRFs or StyleGANs with instructional editing models for creating and editing drivable portraits, these approaches face several challenges. They often rely heavily on large datasets, require extensive customization processes, and frequently result in reduced image quality. To address the above problems, we propose the Efficient Monotonic Video Style Avatar (Emo-Avatar) through deferred neural rendering that enhances StyleGAN’s capacity for producing dynamic, drivable portrait videos. We proposed a two-stage deferred neural rendering pipeline. In the first stage, we utilize few-shot PTI initialization to initialize the StyleGAN generator through several extreme poses sampled from the video to capture the consistent representation of aligned faces from the target portrait. In the second stage, we propose a Laplacian pyramid for high-frequency texture sampling from UV maps deformed by dynamic flow of expression for motion-aware texture prior integration to provide torso features to enhance StyleGAN’s ability to generate complete and upper body for portrait video rendering. Emo-Avatar reduces style customization time from hours to merely 5 minutes compared with existing methods. In addition, Emo-Avatar requires only a single reference image for editing and employs region-aware contrastive learning with semantic invariant CLIP guidance, ensuring consistent high-resolution output and identity preservation. Through both quantitative and qualitative assessments, Emo-Avatar demonstrates superior performance over existing methods in terms of training efficiency, rendering quality and editability in self- and cross-reenactment.

arxiv情報

著者 Pinxin Liu,Luchuan Song,Daoan Zhang,Hang Hua,Yunlong Tang,Huaijin Tu,Jiebo Luo,Chenliang Xu
発行日 2024-02-01 18:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク