LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

要約

ポートレートアニメーションは、単一のソース画像からのリアルなビデオを合成することを目的としており、それを外観リファレンスとして使用し、運転ビデオ、オーディオ、テキスト、または世代から派生した動き(つまり、表情とヘッドポーズ)を使用します。
主流の拡散ベースの方法に従う代わりに、計算効率と制御可能性のバランスをとる暗黙のキーポンポイントベースのフレームワークの可能性を調査および拡張します。
これに基づいて、実用的な使用のためのより良い一般化、制御可能性、効率性に焦点を当てたLiveportraitという名前のビデオ駆動型のポートレートアニメーションフレームワークを開発します。
生成品質と一般化能力を高めるために、トレーニングデータを約6900万の高品質フレームに拡大し、混合画像トレーニング戦略を採用し、ネットワークアーキテクチャをアップグレードし、より良いモーション変換と最適化の目的を設計します。
さらに、コンパクトな暗黙のキーポイントが一種のブレンドシェイプを効果的に表現し、細心の注意を払って2つのリターゲティングモジュールを提案することがわかります。
実験結果は、拡散ベースの方法と比較しても、フレームワークの有効性を示しています。
Pytorchを使用したRTX 4090 GPUで、発電速度は著しく12.8msに達します。
推論コードとモデルは、https://github.com/kwaivgi/liveportraitで入手できます

要約(オリジナル)

Portrait Animation aims to synthesize a lifelike video from a single source image, using it as an appearance reference, with motion (i.e., facial expressions and head pose) derived from a driving video, audio, text, or generation. Instead of following mainstream diffusion-based methods, we explore and extend the potential of the implicit-keypoint-based framework, which effectively balances computational efficiency and controllability. Building upon this, we develop a video-driven portrait animation framework named LivePortrait with a focus on better generalization, controllability, and efficiency for practical usage. To enhance the generation quality and generalization ability, we scale up the training data to about 69 million high-quality frames, adopt a mixed image-video training strategy, upgrade the network architecture, and design better motion transformation and optimization objectives. Additionally, we discover that compact implicit keypoints can effectively represent a kind of blendshapes and meticulously propose a stitching and two retargeting modules, which utilize a small MLP with negligible computational overhead, to enhance the controllability. Experimental results demonstrate the efficacy of our framework even compared to diffusion-based methods. The generation speed remarkably reaches 12.8ms on an RTX 4090 GPU with PyTorch. The inference code and models are available at https://github.com/KwaiVGI/LivePortrait

arxiv情報

著者 Jianzhu Guo,Dingyun Zhang,Xiaoqiang Liu,Zhizhou Zhong,Yuan Zhang,Pengfei Wan,Di Zhang
発行日 2025-02-28 14:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク