要約
人工知能の魅力的なアプリケーションの 1 つは、(ソースの人物から) 任意の望ましい動作を実行しているターゲットの人物のビデオを生成することです。
最先端の方法では、同様の大まかな動きの詳細を示すビデオを合成できますが、一般に、テクスチャの詳細が欠けています。
関連する徴候は歪んだ顔、足、および手として現れ、そのような欠陥は人間の観察者によって非常に敏感に認識されます.
さらに、現在の方法では通常、L2 損失のある GAN を使用して、生成されたビデオの信頼性を評価します。これは、適切なビデオ生成のためにテクスチャの詳細を学習するために大量のトレーニング サンプルを本質的に必要とします。
この作業では、これらの課題に 3 つの側面から取り組みます。1) 各ビデオ フレームを前景 (人物) と背景に分解し、前景を生成してネットワーク出力の基本的な次元を削減することに焦点を当てます。
2) ポーズから前景画像へのマッピングの学習を容易にする、理論的に動機付けられた Gromov-Wasserstein 損失を提案します。
3) テクスチャの詳細を強化するために、幾何学的ガイダンスを使用して顔の特徴をエンコードし、ローカル GAN を使用して顔、足、および手を改良します。
広範な実験により、私たちの方法が現実的なターゲット人物のビデオを生成し、ソース人物から複雑な動きを忠実にコピーできることが示されています。
要約(オリジナル)
One compelling application of artificial intelligence is to generate a video of a target person performing arbitrary desired motion (from a source person). While the state-of-the-art methods are able to synthesize a video demonstrating similar broad stroke motion details, they are generally lacking in texture details. A pertinent manifestation appears as distorted face, feet, and hands, and such flaws are very sensitively perceived by human observers. Furthermore, current methods typically employ GANs with a L2 loss to assess the authenticity of the generated videos, inherently requiring a large amount of training samples to learn the texture details for adequate video generation. In this work, we tackle these challenges from three aspects: 1) We disentangle each video frame into foreground (the person) and background, focusing on generating the foreground to reduce the underlying dimension of the network output. 2) We propose a theoretically motivated Gromov-Wasserstein loss that facilitates learning the mapping from a pose to a foreground image. 3) To enhance texture details, we encode facial features with geometric guidance and employ local GANs to refine the face, feet, and hands. Extensive experiments show that our method is able to generate realistic target person videos, faithfully copying complex motions from a source person.
arxiv情報
著者 | Zhenguang Liu,Sifan Wu,Chejian Xu,Xiang Wang,Lei Zhu,Shuang Wu,Fuli Feng |
発行日 | 2022-12-23 14:17:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google