Delving into the Frequency: Temporally Consistent Human Motion Transfer in the Fourier Space

要約

ヒューマンモーション転送とは、ある人が他の人の動きを模倣できるように、写真に近い、時間的に一貫性のある映像を合成することである。しかし、現在の合成映像は、連続したフレームにおける時間的な不整合に悩まされ、映像品質を著しく低下させますが、ピクセルドメインにおける既存の手法では解決には程遠いのが現状です。近年、DeepFakeの検出に関するいくつかの研究は、画像合成手法の周波数不足のため、周波数領域で自然画像と合成画像を区別することを試みています。それにもかかわらず,合成映像の時間的矛盾を,自然映像と合成映像の周波数領域のずれという側面から研究した研究はない.本論文では、時間的に矛盾のない人物動作の伝達のために、周波数空間を掘り下げることを提案する。まず、自然動画と合成動画を周波数領域で初めて包括的に解析し、個々のフレームの空間次元と動画の時間次元の両方における周波数ギャップを明らかにする。自然映像と合成映像の間の周波数ギャップを埋めるために、我々はFreMOTRと名付けた新しいFrequency-based human MOtion TRansferフレームワークを提案し、合成映像の空間アーチファクトと時間不整合を効果的に緩和することができる。FreMOTRは、2つの新しい周波数ベースの正則化モジュールを探求している。1) 個々のフレームにおける人物の外観を改善する周波数領域外観正規化 (FAR) と 2) 隣接フレーム間の時間的整合性を保証する時間周波数正規化 (TFR) である。最後に、包括的な実験により、FreMOTRは時間的整合性メトリクスにおいて優れた性能をもたらすだけでなく、合成映像のフレームレベルの視覚的品質を改善することが実証された。特に、時間的整合性メトリクスは、最先端モデルよりも30%近く改善された。

要約(オリジナル)

Human motion transfer refers to synthesizing photo-realistic and temporally coherent videos that enable one person to imitate the motion of others. However, current synthetic videos suffer from the temporal inconsistency in sequential frames that significantly degrades the video quality, yet is far from solved by existing methods in the pixel domain. Recently, some works on DeepFake detection try to distinguish the natural and synthetic images in the frequency domain because of the frequency insufficiency of image synthesizing methods. Nonetheless, there is no work to study the temporal inconsistency of synthetic videos from the aspects of the frequency-domain gap between natural and synthetic videos. In this paper, we propose to delve into the frequency space for temporally consistent human motion transfer. First of all, we make the first comprehensive analysis of natural and synthetic videos in the frequency domain to reveal the frequency gap in both the spatial dimension of individual frames and the temporal dimension of the video. To close the frequency gap between the natural and synthetic videos, we propose a novel Frequency-based human MOtion TRansfer framework, named FreMOTR, which can effectively mitigate the spatial artifacts and the temporal inconsistency of the synthesized videos. FreMOTR explores two novel frequency-based regularization modules: 1) the Frequency-domain Appearance Regularization (FAR) to improve the appearance of the person in individual frames and 2) Temporal Frequency Regularization (TFR) to guarantee the temporal consistency between adjacent frames. Finally, comprehensive experiments demonstrate that the FreMOTR not only yields superior performance in temporal consistency metrics but also improves the frame-level visual quality of synthetic videos. In particular, the temporal consistency metrics are improved by nearly 30% than the state-of-the-art model.

arxiv情報

著者 Guang Yang,Wu Liu,Xinchen Liu,Xiaoyan Gu,Juan Cao,Jintao Li
発行日 2022-09-07 06:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク