要約
この作業では、1 つの画像のみから忠実度の高い 3D コンテンツを作成する際の問題を調査します。
これは本質的に挑戦的です。基本的に、基になる 3D ジオメトリを推定すると同時に、目に見えないテクスチャを幻覚させることが含まれます。
この課題に対処するために、十分にトレーニングされた 2D 拡散モデルからの事前知識を活用して、3D 作成のための 3D 対応の監督として機能します。
私たちのアプローチである Make-It-3D は、2 段階の最適化パイプラインを採用しています。最初の段階では、正面図で参照画像からの制約を組み込み、新しいビューで事前に拡散することにより、ニューラル放射輝度フィールドを最適化します。
第 2 段階では、粗いモデルをテクスチャ付きの点群に変換し、参照イメージから高品質のテクスチャを活用しながら、事前拡散でリアリズムをさらに高めます。
広範な実験により、私たちの方法が以前の作業よりも大幅に優れていることが実証されており、その結果、忠実な再構成と印象的な視覚品質が得られます。
私たちの方法は、一般的なオブジェクトの 1 つの画像から高品質の 3D 作成を実現する最初の試みであり、テキストから 3D への作成やテクスチャ編集などのさまざまなアプリケーションを可能にします。
要約(オリジナル)
In this work, we investigate the problem of creating high-fidelity 3D content from only a single image. This is inherently challenging: it essentially involves estimating the underlying 3D geometry while simultaneously hallucinating unseen textures. To address this challenge, we leverage prior knowledge from a well-trained 2D diffusion model to act as 3D-aware supervision for 3D creation. Our approach, Make-It-3D, employs a two-stage optimization pipeline: the first stage optimizes a neural radiance field by incorporating constraints from the reference image at the frontal view and diffusion prior at novel views; the second stage transforms the coarse model into textured point clouds and further elevates the realism with diffusion prior while leveraging the high-quality textures from the reference image. Extensive experiments demonstrate that our method outperforms prior works by a large margin, resulting in faithful reconstructions and impressive visual quality. Our method presents the first attempt to achieve high-quality 3D creation from a single image for general objects and enables various applications such as text-to-3D creation and texture editing.
arxiv情報
著者 | Junshu Tang,Tengfei Wang,Bo Zhang,Ting Zhang,Ran Yi,Lizhuang Ma,Dong Chen |
発行日 | 2023-03-24 17:54:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google