要約
ヒューマン モーション トランスファーとは、写真のようにリアルで時間的に一貫性のあるビデオを合成して、ある人が他の人の動きを模倣できるようにすることです。
ただし、現在の合成ビデオは、ビデオ品質を大幅に低下させる連続フレームの一時的な不一致に悩まされていますが、ピクセル領域の既存の方法では解決されていません。
最近、DeepFake 検出に関するいくつかの研究では、画像合成方法の周波数が不十分であるため、周波数領域で自然画像と合成画像を区別しようとしています。
それにもかかわらず、合成ビデオの時間的不一致を、自然ビデオと合成ビデオの間の周波数領域のギャップの側面から研究する作業はありません。
この論文では、時間的に一貫した人間の動きの伝達のために周波数空間を掘り下げることを提案します。
まず第一に、周波数ドメインで自然および合成ビデオの最初の包括的な分析を行い、個々のフレームの空間次元とビデオの時間次元の両方で周波数ギャップを明らかにします。
自然動画と合成動画の間の周波数ギャップを埋めるために、FreMOTR という名前の新しい周波数ベースの人間の MOtion TRansfer フレームワークを提案します。これは、合成動画の空間的アーティファクトと時間的不一致を効果的に軽減できます。
FreMOTR は、2 つの新しい周波数ベースの正則化モジュールを調査します。1) 個々のフレームで人物の外観を改善する周波数領域外観正則化 (FAR) と、2) 隣接するフレーム間の時間的一貫性を保証する時間周波数正則化 (TFR) です。
最後に、包括的な実験により、FreMOTR は一時的な一貫性メトリックで優れたパフォーマンスを発揮するだけでなく、合成ビデオのフレームレベルの視覚的品質も向上させることが示されています。
特に、時間整合性メトリックは、最新のモデルよりも 30% 近く改善されています。
要約(オリジナル)
Human motion transfer refers to synthesizing photo-realistic and temporally coherent videos that enable one person to imitate the motion of others. However, current synthetic videos suffer from the temporal inconsistency in sequential frames that significantly degrades the video quality, yet is far from solved by existing methods in the pixel domain. Recently, some works on DeepFake detection try to distinguish the natural and synthetic images in the frequency domain because of the frequency insufficiency of image synthesizing methods. Nonetheless, there is no work to study the temporal inconsistency of synthetic videos from the aspects of the frequency-domain gap between natural and synthetic videos. In this paper, we propose to delve into the frequency space for temporally consistent human motion transfer. First of all, we make the first comprehensive analysis of natural and synthetic videos in the frequency domain to reveal the frequency gap in both the spatial dimension of individual frames and the temporal dimension of the video. To close the frequency gap between the natural and synthetic videos, we propose a novel Frequency-based human MOtion TRansfer framework, named FreMOTR, which can effectively mitigate the spatial artifacts and the temporal inconsistency of the synthesized videos. FreMOTR explores two novel frequency-based regularization modules: 1) the Frequency-domain Appearance Regularization (FAR) to improve the appearance of the person in individual frames and 2) Temporal Frequency Regularization (TFR) to guarantee the temporal consistency between adjacent frames. Finally, comprehensive experiments demonstrate that the FreMOTR not only yields superior performance in temporal consistency metrics but also improves the frame-level visual quality of synthetic videos. In particular, the temporal consistency metrics are improved by nearly 30% than the state-of-the-art model.
arxiv情報
著者 | Guang Yang,Wu Liu,Xinchen Liu,Xiaoyan Gu,Juan Cao,Jintao Li |
発行日 | 2022-09-01 05:30:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google