RIGID: Recurrent GAN Inversion and Editing of Real Face Videos

要約

GAN の強力な編集機能を実際の画像に適用するには、GAN 反転が不可欠です。
ただし、既存の方法ではビデオ フレームを個別に反転するため、時間の経過とともに望ましくない一貫性のない結果が生じることがよくあります。
この論文では、\textbf{R}ecurrent v\textbf{I}deo \textbf{G}AN \textbf{I}nversion and e\textbf{D}iting (RIGID) という名前の統合再帰フレームワークを提案します。
実際のビデオの時間的にコヒーレントな GAN 反転とフェイシャル編集を明示的かつ同時に実行します。
私たちのアプローチは、現在のフレームと前のフレームの間の時間的関係を 3 つの側面からモデル化します。
忠実な実際のビデオの再構成を可能にするために、まず時間補償された潜在コードを学習することによって反転の忠実性と一貫性を最大化します。
次に、インコヒーレントなノイズが高周波領域に存在し、潜在空間から解きほぐされることが観察されます。
第三に、属性操作後の不一致を取り除くために、任意のフレームが隣接するフレームの直接合成でなければならないような \textit{中間フレーム合成制約} を提案します。
当社の統合フレームワークは、入力フレーム間の固有の一貫性をエンドツーエンドで学習するため、特定の属性に依存せず、再トレーニングすることなく同じビデオの任意の編集に適用できます。
広範な実験により、RIGID が反転タスクと編集タスクの両方において定性的および定量的に最先端の方法よりも優れていることが実証されました。
成果物は \url{https://cnnlstm.github.io/RIGID} にあります。

要約(オリジナル)

GAN inversion is indispensable for applying the powerful editability of GAN to real images. However, existing methods invert video frames individually often leading to undesired inconsistent results over time. In this paper, we propose a unified recurrent framework, named \textbf{R}ecurrent v\textbf{I}deo \textbf{G}AN \textbf{I}nversion and e\textbf{D}iting (RIGID), to explicitly and simultaneously enforce temporally coherent GAN inversion and facial editing of real videos. Our approach models the temporal relations between current and previous frames from three aspects. To enable a faithful real video reconstruction, we first maximize the inversion fidelity and consistency by learning a temporal compensated latent code. Second, we observe incoherent noises lie in the high-frequency domain that can be disentangled from the latent space. Third, to remove the inconsistency after attribute manipulation, we propose an \textit{in-between frame composition constraint} such that the arbitrary frame must be a direct composite of its neighboring frames. Our unified framework learns the inherent coherence between input frames in an end-to-end manner, and therefore it is agnostic to a specific attribute and can be applied to arbitrary editing of the same video without re-training. Extensive experiments demonstrate that RIGID outperforms state-of-the-art methods qualitatively and quantitatively in both inversion and editing tasks. The deliverables can be found in \url{https://cnnlstm.github.io/RIGID}

arxiv情報

著者 Yangyang Xu,Shengfeng He,Kwan-Yee K. Wong,Ping Luo
発行日 2023-08-15 13:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク