MegActor: Harness the Power of Raw Video for Vivid Portrait Animation

要約

生の運転ビデオには、ポートレート アニメーションの分野におけるランドマークなどの中間表現よりも表情に関する豊富な情報が含まれているにもかかわらず、研究の対象となることはほとんどありません。
これは、生のビデオを使用したポートレート アニメーションに固有の 2 つの課題によるものです。1) 重大な個人情報の漏洩。
2) 無関係な背景やしわなどの顔の詳細はパフォーマンスを低下させます。
生のビデオの力を活用して鮮やかなポートレート アニメーションを実現するために、私たちは MegActor という名前の先駆的な条件付き拡散モデルを提案しました。
まず、ID 漏洩の問題を軽減するために、一貫性のある動きと表情を持つ、一貫性のない ID を持つ動画を作成するための合成データ生成フレームワークを導入しました。
次に、参照画像の前景と背景をセグメント化し、CLIP を使用して背景の詳細​​をエンコードしました。
このエンコードされた情報は、テキスト埋め込みモジュールを介してネットワークに統合されるため、背景の安定性が確保されます。
最後に、参照画像の外観を運転ビデオにさらにスタイル転送して、運転ビデオ内の顔の詳細の影響を排除します。
私たちの最終モデルは公開データセットのみでトレーニングされ、商用モデルと同等の結果を達成しました。
これがオープンソース コミュニティに役立つことを願っています。コードは https://github.com/megvii-research/MegFaceAnimate で入手できます。

要約(オリジナル)

Despite raw driving videos contain richer information on facial expressions than intermediate representations such as landmarks in the field of portrait animation, they are seldom the subject of research. This is due to two challenges inherent in portrait animation driven with raw videos: 1) significant identity leakage; 2) Irrelevant background and facial details such as wrinkles degrade performance. To harnesses the power of the raw videos for vivid portrait animation, we proposed a pioneering conditional diffusion model named as MegActor. First, we introduced a synthetic data generation framework for creating videos with consistent motion and expressions but inconsistent IDs to mitigate the issue of ID leakage. Second, we segmented the foreground and background of the reference image and employed CLIP to encode the background details. This encoded information is then integrated into the network via a text embedding module, thereby ensuring the stability of the background. Finally, we further style transfer the appearance of the reference image to the driving video to eliminate the influence of facial details in the driving videos. Our final model was trained solely on public datasets, achieving results comparable to commercial models. We hope this will help the open-source community.The code is available at https://github.com/megvii-research/MegFaceAnimate.

arxiv情報

著者 Shurong Yang,Huadong Li,Juhao Wu,Minhao Jing,Linze Li,Renhe Ji,Jiajun Liang,Haoqiang Fan
発行日 2024-05-31 14:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク