CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models

要約

画像からフォトリアリスティックでダイナミックなポートレート アバターを再構築することは、広告、視覚効果、仮想現実を含む多くのアプリケーションにとって不可欠です。
アプリケーションに応じて、アバターの再構成にはさまざまなキャプチャ設定と制約が含まれます $-$ たとえば、視覚効果スタジオはカメラ アレイを使用して数百の参照画像をキャプチャしますが、コンテンツ クリエーターはインターネットからダウンロードした 1 つのポートレート画像をアニメーション化しようとする場合があります。
そのため、アバターを再構成する方法には、大規模で異質なエコシステムが存在します。
マルチビュー ステレオまたはニューラル レンダリングに基づく技術では、最高品質の結果が得られますが、数百の参照画像が必要です。
最近の生成モデルは、単一の参照画像から説得力のあるアバターを生成しますが、視覚的な忠実度はまだマルチビュー技術に遅れています。
ここでは、CAP4D を紹介します。これは、モーフィング可能なマルチビュー拡散モデルを使用して、任意の数の参照画像 (つまり 1 ~ 100) からフォトリアル 4D (ダイナミック 3D) ポートレート アバターを再構成し、それらをリアルタイムでアニメーション化してレンダリングするアプローチです。
私たちのアプローチは、単一画像、少数画像、および複数画像の 4D ポートレート アバター再構成における最先端のパフォーマンスを実証し、単一画像と複数ビューの再構成技術の間の視覚的忠実度のギャップを埋めるための措置を講じています。

要約(オリジナル)

Reconstructing photorealistic and dynamic portrait avatars from images is essential to many applications including advertising, visual effects, and virtual reality. Depending on the application, avatar reconstruction involves different capture setups and constraints $-$ for example, visual effects studios use camera arrays to capture hundreds of reference images, while content creators may seek to animate a single portrait image downloaded from the internet. As such, there is a large and heterogeneous ecosystem of methods for avatar reconstruction. Techniques based on multi-view stereo or neural rendering achieve the highest quality results, but require hundreds of reference images. Recent generative models produce convincing avatars from a single reference image, but visual fidelity yet lags behind multi-view techniques. Here, we present CAP4D: an approach that uses a morphable multi-view diffusion model to reconstruct photoreal 4D (dynamic 3D) portrait avatars from any number of reference images (i.e., one to 100) and animate and render them in real time. Our approach demonstrates state-of-the-art performance for single-, few-, and multi-image 4D portrait avatar reconstruction, and takes steps to bridge the gap in visual fidelity between single-image and multi-view reconstruction techniques.

arxiv情報

著者 Felix Taubner,Ruihang Zhang,Mathieu Tuli,David B. Lindell
発行日 2024-12-16 18:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク