Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models

要約

単一の RGB 画像からリアルなアバターを作成することは、魅力的ですが困難な問題です。
不適切な設定の性質のため、最近の研究では、大規模なデータセットで事前トレーニングされた 2D 拡散モデルからの強力な事前学習を活用しています。
2D 拡散モデルは強力な一般化機能を示しますが、3D の一貫性が保証されたマルチビュー形状事前分布を提供することはできません。
私たちは、Human 3Diffusion: 明示的な 3D 一貫性のある拡散によるリアルなアバターの作成を提案します。
私たちの重要な洞察は、2D マルチビュー拡散モデルと 3D 再構成モデ​​ルが相互に補完的な情報を提供し、それらを緊密に結合することで、両方のモデルの可能性を最大限に活用できるということです。
我々は、2D マルチビュー拡散モデルからの事前分布を活用し、明示的な 3D 表現を提供する、新しい画像条件付き生成 3D ガウス スプラット再構築モデルを導入します。これにより、2D 逆サンプリング プロセスがより良い 3D 一貫性を持つようにさらにガイドされます。
実験の結果、私たちが提案したフレームワークは最先端の方法よりも優れており、単一の RGB 画像からリアルなアバターを作成でき、ジオメトリと外観の両方で高い忠実度を実現できることがわかりました。
広範なアブレーションは、我々の設計、(1) 生成 3D 再構成におけるマルチビュー 2D 事前条件付け、および (2) 明示的な 3D 表現によるサンプリング軌道の一貫性の向上の有効性も検証します。
私たちのコードとモデルは https://yuxuan-xue.com/human-3diffusion でリリースされます。

要約(オリジナル)

Creating realistic avatars from a single RGB image is an attractive yet challenging problem. Due to its ill-posed nature, recent works leverage powerful prior from 2D diffusion models pretrained on large datasets. Although 2D diffusion models demonstrate strong generalization capability, they cannot provide multi-view shape priors with guaranteed 3D consistency. We propose Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion. Our key insight is that 2D multi-view diffusion and 3D reconstruction models provide complementary information for each other, and by coupling them in a tight manner, we can fully leverage the potential of both models. We introduce a novel image-conditioned generative 3D Gaussian Splats reconstruction model that leverages the priors from 2D multi-view diffusion models, and provides an explicit 3D representation, which further guides the 2D reverse sampling process to have better 3D consistency. Experiments show that our proposed framework outperforms state-of-the-art methods and enables the creation of realistic avatars from a single RGB image, achieving high-fidelity in both geometry and appearance. Extensive ablations also validate the efficacy of our design, (1) multi-view 2D priors conditioning in generative 3D reconstruction and (2) consistency refinement of sampling trajectory via the explicit 3D representation. Our code and models will be released on https://yuxuan-xue.com/human-3diffusion.

arxiv情報

著者 Yuxuan Xue,Xianghui Xie,Riccardo Marin,Gerard Pons-Moll
発行日 2024-06-12 17:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク