要約
ヒューマン モーション コピーは、人工知能とコンピュータ ビジョンにおける興味深いながらもやりがいのあるタスクであり、ターゲットとなる人物がソースとなる人物のモーションを実行するフェイク ビデオを生成することを目的としています。
この問題は、人体の微妙なテクスチャの詳細が生成され、時間的な一貫性が考慮されるため、本質的に困難です。
既存のアプローチは通常、L1 または L2 損失を伴う従来の GAN を採用してターゲットのフェイク ビデオを生成します。これには本質的に大量のトレーニング サンプルが必要であり、取得が困難です。
一方、現在の方法では、現実的な画像の詳細と時間的一貫性を達成するのが依然として困難であり、残念なことに、人間の観察者によって容易に認識されてしまう可能性があります。
これを動機として、私たちは 3 つの側面から問題に取り組もうとします。 (1) ポーズと外観の間のギャップを埋めるために、知覚的損失と理論的に動機付けられたグロモフ-ワッサーシュタイン損失を使用してポーズから外観への生成を制限します。
(2) モデルが過去の劣悪な世代から学習するのに役立つ連続学習を推進するために、ポーズから出現までの世代にエピソード記憶モジュールを提供します。
また、顔の幾何学的な手がかりを利用して顔の詳細を最適化し、専用のローカル GAN で主要な体の各部分を洗練します。
(3) 私たちは、単一フレーム方式ではなくシーケンス間方式でフォアグラウンドを生成し、時間的不一致を明示的に強制することを推奨します。
5 つのデータセット (iPER、ComplexMotion、SoloDance、Fish、および Mouse データセット) に関する実験結果は、私たちの方法がソース ビデオからモーションを正確にコピーしながら、現実的なターゲット ビデオを生成できることを示しています。
私たちの方法は最先端のアプローチを大幅に上回り、PSNR と FID がそれぞれ 7.2% と 12.4% 向上しました。
要約(オリジナル)
Human motion copy is an intriguing yet challenging task in artificial intelligence and computer vision, which strives to generate a fake video of a target person performing the motion of a source person. The problem is inherently challenging due to the subtle human-body texture details to be generated and the temporal consistency to be considered. Existing approaches typically adopt a conventional GAN with an L1 or L2 loss to produce the target fake video, which intrinsically necessitates a large number of training samples that are challenging to acquire. Meanwhile, current methods still have difficulties in attaining realistic image details and temporal consistency, which unfortunately can be easily perceived by human observers. Motivated by this, we try to tackle the issues from three aspects: (1) We constrain pose-to-appearance generation with a perceptual loss and a theoretically motivated Gromov-Wasserstein loss to bridge the gap between pose and appearance. (2) We present an episodic memory module in the pose-to-appearance generation to propel continuous learning that helps the model learn from its past poor generations. We also utilize geometrical cues of the face to optimize facial details and refine each key body part with a dedicated local GAN. (3) We advocate generating the foreground in a sequence-to-sequence manner rather than a single-frame manner, explicitly enforcing temporal inconsistency. Empirical results on five datasets, iPER, ComplexMotion, SoloDance, Fish, and Mouse datasets, demonstrate that our method is capable of generating realistic target videos while precisely copying motion from a source video. Our method significantly outperforms state-of-the-art approaches and gains 7.2% and 12.4% improvements in PSNR and FID respectively.
arxiv情報
著者 | Sifan Wu,Zhenguang Liu,Beibei Zhang,Roger Zimmermann,Zhongjie Ba,Xiaosong Zhang,Kui Ren |
発行日 | 2024-06-24 12:41:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google