要約
単一の RGB 画像からリアルな 3D オブジェクトや服を着たアバターを作成することは、魅力的ですが難しい問題です。
不適切な設定の性質のため、最近の研究では、大規模なデータセットで事前トレーニングされた 2D 拡散モデルからの強力な事前学習を活用しています。
2D 拡散モデルは強力な一般化機能を示していますが、生成されたマルチビュー画像が 3D で一貫していることを保証することはできません。
この論文では、Gen-3Diffusion: 2D および 3D 拡散相乗効果によるリアルな画像から 3D への生成を提案します。
私たちは、トレーニング時とサンプリング時の両方で 2 つの拡散モデルを同期する、エレガントに設計されたプロセスを通じて、事前トレーニングされた 2D 拡散モデルと 3D 拡散モデルを活用します。
2D と 3D の拡散モデル間の相乗効果により、2 つの大きな利点がもたらされます。1) 2D は 3D の一般化に役立ちます。事前トレーニングされた 2D モデルは、目に見えない画像に対する強力な一般化能力を備えており、3D 拡散モデルに強力な形状事前分布を提供します。
2) 3D は、マルチビューの一貫性において 2D を支援します。3D 拡散モデルは、2D マルチビューのサンプリング プロセスの 3D の一貫性を強化し、より正確なマルチビューの生成を実現します。
私たちは、画像ベースのオブジェクトと服を着たアバター生成タスクにおける広範な実験を通じてアイデアを検証します。
結果は、私たちの方法が高忠実度のジオメトリとテクスチャを備えたリアルな 3D オブジェクトとアバターを生成することを示しています。
また、広範なアブレーションによりデザインの選択が検証され、多様な衣服や構成形状に対する強力な一般化能力が実証されています。
私たちのコードと事前トレーニングされたモデルは https://yuxuan-xue.com/gen-3diffusion で公開されます。
要約(オリジナル)
Creating realistic 3D objects and clothed avatars from a single RGB image is an attractive yet challenging problem. Due to its ill-posed nature, recent works leverage powerful prior from 2D diffusion models pretrained on large datasets. Although 2D diffusion models demonstrate strong generalization capability, they cannot guarantee the generated multi-view images are 3D consistent. In this paper, we propose Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergy. We leverage a pre-trained 2D diffusion model and a 3D diffusion model via our elegantly designed process that synchronizes two diffusion models at both training and sampling time. The synergy between the 2D and 3D diffusion models brings two major advantages: 1) 2D helps 3D in generalization: the pretrained 2D model has strong generalization ability to unseen images, providing strong shape priors for the 3D diffusion model; 2) 3D helps 2D in multi-view consistency: the 3D diffusion model enhances the 3D consistency of 2D multi-view sampling process, resulting in more accurate multi-view generation. We validate our idea through extensive experiments in image-based objects and clothed avatar generation tasks. Results show that our method generates realistic 3D objects and avatars with high-fidelity geometry and texture. Extensive ablations also validate our design choices and demonstrate the strong generalization ability to diverse clothing and compositional shapes. Our code and pretrained models will be publicly released on https://yuxuan-xue.com/gen-3diffusion.
arxiv情報
著者 | Yuxuan Xue,Xianghui Xie,Riccardo Marin,Gerard Pons-Moll |
発行日 | 2024-12-09 17:44:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google