LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

要約

ポートレート・アニメーションは、1つのソース画像から、それを外見基準として、ドライビング・ビデオ、オーディオ、テキスト、またはジェネレーションから得られる動き(すなわち、表情や頭のポーズ)を用いて、本物そっくりの映像を合成することを目的としている。主流の拡散ベースの手法に従う代わりに、計算効率と制御性のバランスを効果的にとる暗黙キーポイントベースのフレームワークの可能性を探り、拡張する。これに基づいて、我々は、より良い一般化、制御性、および実用的な使用のための効率性に焦点を当てて、LivePortraitと名付けられたビデオ駆動型ポートレートアニメーションフレームワークを開発する。生成品質と汎化能力を向上させるために、学習データを約6900万フレームまで高画質化し、画像と動画の混合学習戦略を採用し、ネットワークアーキテクチャを改良し、より良い動き変換と最適化目標を設計する。さらに、コンパクトな暗黙的キーポイントが一種のブレンドシェープを効果的に表現できることを発見し、制御性を高めるために、計算オーバーヘッドを無視できる小さなMLPを利用するスティッチングモジュールと2つのリターゲティングモジュールを綿密に提案する。実験結果は、拡散ベースの手法と比較しても、本フレームワークの有効性を実証している。生成速度は、PyTorchを搭載したRTX 4090 GPU上で12.8msに達する。推論コードとモデルはhttps://github.com/KwaiVGI/LivePortrait。

要約(オリジナル)

Portrait Animation aims to synthesize a lifelike video from a single source image, using it as an appearance reference, with motion (i.e., facial expressions and head pose) derived from a driving video, audio, text, or generation. Instead of following mainstream diffusion-based methods, we explore and extend the potential of the implicit-keypoint-based framework, which effectively balances computational efficiency and controllability. Building upon this, we develop a video-driven portrait animation framework named LivePortrait with a focus on better generalization, controllability, and efficiency for practical usage. To enhance the generation quality and generalization ability, we scale up the training data to about 69 million high-quality frames, adopt a mixed image-video training strategy, upgrade the network architecture, and design better motion transformation and optimization objectives. Additionally, we discover that compact implicit keypoints can effectively represent a kind of blendshapes and meticulously propose a stitching and two retargeting modules, which utilize a small MLP with negligible computational overhead, to enhance the controllability. Experimental results demonstrate the efficacy of our framework even compared to diffusion-based methods. The generation speed remarkably reaches 12.8ms on an RTX 4090 GPU with PyTorch. The inference code and models are available at https://github.com/KwaiVGI/LivePortrait

arxiv情報

著者 Jianzhu Guo,Dingyun Zhang,Xiaoqiang Liu,Zhizhou Zhong,Yuan Zhang,Pengfei Wan,Di Zhang
発行日 2024-07-03 14:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク