要約
人工知能の魅力的なアプリケーションの1つは、(ソースの人から)任意の目的のモーションを実行するターゲットの人のビデオを生成することです。
最先端の方法では、同様の幅広いストロークモーションの詳細を示すビデオを合成できますが、一般的にテクスチャの詳細が不足しています。
適切な症状は、歪んだ顔、足、手として現れ、そのような欠陥は人間の観察者によって非常に敏感に知覚されます。
さらに、現在の方法では通常、L2損失のあるGANを使用して、生成されたビデオの信頼性を評価します。適切なビデオ生成のためにテクスチャの詳細を学習するには、本質的に大量のトレーニングサンプルが必要です。
この作業では、次の3つの側面からこれらの課題に取り組みます。1)各ビデオフレームをフォアグラウンド(人)とバックグラウンドに解きほぐし、フォアグラウンドを生成してネットワーク出力の基本的な次元を減らすことに焦点を当てます。
2)ポーズから前景画像へのマッピングの学習を容易にする理論的に動機付けられたGromov-Wasserstein損失を提案します。
3)テクスチャの詳細を強調するために、幾何学的ガイダンスを使用して顔の特徴をエンコードし、ローカルGANを使用して顔、足、および手を洗練します。
広範な実験により、私たちの方法は、ソース人物から複雑な動きを忠実にコピーして、現実的なターゲット人物のビデオを生成できることが示されています。
コードとデータセットはhttps://github.com/Sifann/FakeMotionでリリースされています
要約(オリジナル)
One compelling application of artificial intelligence is to generate a video of a target person performing arbitrary desired motion (from a source person). While the state-of-the-art methods are able to synthesize a video demonstrating similar broad stroke motion details, they are generally lacking in texture details. A pertinent manifestation appears as distorted face, feet, and hands, and such flaws are very sensitively perceived by human observers. Furthermore, current methods typically employ GANs with a L2 loss to assess the authenticity of the generated videos, inherently requiring a large amount of training samples to learn the texture details for adequate video generation. In this work, we tackle these challenges from three aspects: 1) We disentangle each video frame into foreground (the person) and background, focusing on generating the foreground to reduce the underlying dimension of the network output. 2) We propose a theoretically motivated Gromov-Wasserstein loss that facilitates learning the mapping from a pose to a foreground image. 3) To enhance texture details, we encode facial features with geometric guidance and employ local GANs to refine the face, feet, and hands. Extensive experiments show that our method is able to generate realistic target person videos, faithfully copying complex motions from a source person. Our code and datasets are released at https://github.com/Sifann/FakeMotion
arxiv情報
著者 | Zhenguang Liu,Sifan Wu,Chejian Xu,Xiang Wang,Lei Zhu,Shuang Wu,Fuli Feng |
発行日 | 2022-06-29 07:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google