In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition

要約

3D 対応の GAN は、2D 対応の GAN の編集機能を維持しながら、ビュー合成などのクリエイティブなコンテンツ編集のための新しい機能を提供します。
これらの手法は、GAN 反転を使用して、潜在コードを最適化/予測することで画像またはビデオを再構築し、潜在コードを操作することでセマンティック編集を実現できます。
ただし、顔のデータセット (FFHQ など) で事前トレーニングされたモデルは、多くの場合、分布外 (OOD) のオブジェクト (濃い化粧や遮蔽物など) を含む顔を処理するのが困難です。
顔のビデオで OOD オブジェクトを明示的にモデル化することで、この問題に対処します。
私たちの核となるアイデアは、2 つの神経放射輝度フィールド (1 つは分布内データ用、もう 1 つは分布外データ用) を使用してビデオ内の顔を表現し、再構成のためにそれらを一緒に構成することです。
このような明示的な分解により、再構成の忠実度と編集可能性との間の固有のトレードオフが軽減されます。
挑戦的な実際のビデオでの方法の再構成精度と編集可能性を評価し、他のベースラインに対して好ましい結果を示します。

要約(オリジナル)

3D-aware GANs offer new capabilities for creative content editing, such as view synthesis, while preserving the editing capability of their 2D counterparts. Using GAN inversion, these methods can reconstruct an image or a video by optimizing/predicting a latent code and achieve semantic editing by manipulating the latent code. However, a model pre-trained on a face dataset (e.g., FFHQ) often has difficulty handling faces with out-of-distribution (OOD) objects, (e.g., heavy make-up or occlusions). We address this issue by explicitly modeling OOD objects in face videos. Our core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction. Such explicit decomposition alleviates the inherent trade-off between reconstruction fidelity and editability. We evaluate our method’s reconstruction accuracy and editability on challenging real videos and showcase favorable results against other baselines.

arxiv情報

著者 Yiran Xu,Zhixin Shu,Cameron Smith,Jia-Bin Huang,Seoung Wug Oh
発行日 2023-02-09 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク