要約
この論文では、参照画像によって提供される情報を最大限に活用して、画像から 3D への生成に先立ってカスタマイズされた知識を確立する、新しい 2 段階のアプローチを紹介します。
これまでのアプローチは主に一般的な事前拡散に依存しており、参照画像と一貫した結果を得るのに苦労していましたが、我々は被写体固有のマルチモーダル拡散モデルを提案します。
このモデルは、ジオメトリを改善するためのシェーディング モードを考慮することで NeRF の最適化を支援するだけでなく、粗い結果からテクスチャを強化して優れたリファインメントを実現します。
どちらの側面も、3D コンテンツを被写体に忠実に合わせるのに役立ちます。
広範な実験により、私たちの手法である Customize-It-3D の優位性が実証され、以前の研究を大幅に上回りました。
印象的なビジュアル品質で忠実な 360 度の再構成を生成するため、テキストから 3D への作成など、さまざまなアプリケーションに適しています。
要約(オリジナル)
In this paper, we present a novel two-stage approach that fully utilizes the information provided by the reference image to establish a customized knowledge prior for image-to-3D generation. While previous approaches primarily rely on a general diffusion prior, which struggles to yield consistent results with the reference image, we propose a subject-specific and multi-modal diffusion model. This model not only aids NeRF optimization by considering the shading mode for improved geometry but also enhances texture from the coarse results to achieve superior refinement. Both aspects contribute to faithfully aligning the 3D content with the subject. Extensive experiments showcase the superiority of our method, Customize-It-3D, outperforming previous works by a substantial margin. It produces faithful 360-degree reconstructions with impressive visual quality, making it well-suited for various applications, including text-to-3D creation.
arxiv情報
著者 | Nan Huang,Ting Zhang,Yuhui Yuan,Dong Chen,Shanghang Zhang |
発行日 | 2024-01-09 10:47:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google