FaceLift: Single Image to 3D Head with View Generation and GS-LRM

要約

私たちは、単一の画像から迅速かつ高品質の 360 度の頭部を再構成するためのフィードフォワード アプローチである FaceLift を紹介します。
私たちのパイプラインは、単一の顔入力から頭部の一貫した側面および背面ビューを生成するマルチビュー潜在拡散モデルを採用することから始まります。
これらの生成されたビューは、GS-LRM 再構成器への入力として機能し、ガウス スプラットを使用して包括的な 3D 表現を生成します。
システムをトレーニングするために、合成 3D 人間の頭のセットを使用してマルチビュー レンダリングのデータセットを開発します。
拡散ベースのマルチビュー ジェネレーターは合成頭部画像のみでトレーニングされるのに対し、GS-LRM 再構成器は Objaverse で初期トレーニングを受け、続いて合成頭部データで微調整されます。
FaceLift は、アイデンティティを保持し、複数のビュー間でビューの一貫性を維持することに優れています。
FaceLift は合成データのみでトレーニングされているにもかかわらず、現実世界の画像に対する顕著な一般化を示しています。
広範な定性的および定量的評価を通じて、FaceLift が 3D 頭部再構成において最先端の手法より優れていることを示し、現実世界の画像に対するその実用的な適用性と堅牢なパフォーマンスを強調しています。
単一画像の再構成に加えて、FaceLift は 4D ノベル ビュー合成のためのビデオ入力をサポートし、2D 蘇生技術とシームレスに統合して 3D 顔アニメーションを可能にします。
プロジェクトページ: https://weijielyu.github.io/FaceLift。

要約(オリジナル)

We present FaceLift, a feed-forward approach for rapid, high-quality, 360-degree head reconstruction from a single image. Our pipeline begins by employing a multi-view latent diffusion model that generates consistent side and back views of the head from a single facial input. These generated views then serve as input to a GS-LRM reconstructor, which produces a comprehensive 3D representation using Gaussian splats. To train our system, we develop a dataset of multi-view renderings using synthetic 3D human head as-sets. The diffusion-based multi-view generator is trained exclusively on synthetic head images, while the GS-LRM reconstructor undergoes initial training on Objaverse followed by fine-tuning on synthetic head data. FaceLift excels at preserving identity and maintaining view consistency across views. Despite being trained solely on synthetic data, FaceLift demonstrates remarkable generalization to real-world images. Through extensive qualitative and quantitative evaluations, we show that FaceLift outperforms state-of-the-art methods in 3D head reconstruction, highlighting its practical applicability and robust performance on real-world images. In addition to single image reconstruction, FaceLift supports video inputs for 4D novel view synthesis and seamlessly integrates with 2D reanimation techniques to enable 3D facial animation. Project page: https://weijielyu.github.io/FaceLift.

arxiv情報

著者 Weijie Lyu,Yi Zhou,Ming-Hsuan Yang,Zhixin Shu
発行日 2024-12-23 18:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク