要約
単一画像の 3D 再構成は、自然界についての広範な知識を必要とする重要ではありますが、困難な作業です。
既存の手法の多くは、2D 拡散モデルの指導の下で神経放射フィールドを最適化することでこの問題を解決していますが、最適化に時間がかかり、3D の不一致な結果が発生し、ジオメトリが不十分になるという問題があります。
この研究では、任意のオブジェクトの単一画像を入力として受け取り、単一のフィードフォワード パスで完全な 360 度 3D テクスチャ メッシュを生成する新しい方法を提案します。
単一の画像が与えられた場合、まずビュー条件付き 2D 拡散モデル Zero123 を使用して入力ビューのマルチビュー画像を生成し、次にそれらを 3D 空間に引き上げることを目指します。
従来の再構成手法は一貫性のないマルチビュー予測に苦戦するため、SDF ベースの一般化可能なニューラル サーフェス再構成手法に基づいて 3D 再構成モジュールを構築し、360 度メッシュの再構成を可能にするいくつかの重要なトレーニング戦略を提案します。
コストのかかる最適化を行わずに、私たちの方法は既存の方法よりも大幅に短い時間で 3D 形状を再構築します。
さらに、私たちの方法はより良いジオメトリを優先し、より一貫した 3D 結果を生成し、入力画像により忠実に再現します。
私たちは合成データと実際の画像の両方でアプローチを評価し、メッシュ品質と実行時間の両方の点でその優位性を実証します。
さらに、私たちのアプローチは、既製のテキストから画像への拡散モデルと統合することにより、テキストから 3D へのタスクをシームレスにサポートできます。
要約(オリジナル)
Single image 3D reconstruction is an important but challenging task that requires extensive knowledge of our natural world. Many existing methods solve this problem by optimizing a neural radiance field under the guidance of 2D diffusion models but suffer from lengthy optimization time, 3D inconsistency results, and poor geometry. In this work, we propose a novel method that takes a single image of any object as input and generates a full 360-degree 3D textured mesh in a single feed-forward pass. Given a single image, we first use a view-conditioned 2D diffusion model, Zero123, to generate multi-view images for the input view, and then aim to lift them up to 3D space. Since traditional reconstruction methods struggle with inconsistent multi-view predictions, we build our 3D reconstruction module upon an SDF-based generalizable neural surface reconstruction method and propose several critical training strategies to enable the reconstruction of 360-degree meshes. Without costly optimizations, our method reconstructs 3D shapes in significantly less time than existing methods. Moreover, our method favors better geometry, generates more 3D consistent results, and adheres more closely to the input image. We evaluate our approach on both synthetic data and in-the-wild images and demonstrate its superiority in terms of both mesh quality and runtime. In addition, our approach can seamlessly support the text-to-3D task by integrating with off-the-shelf text-to-image diffusion models.
arxiv情報
著者 | Minghua Liu,Chao Xu,Haian Jin,Linghao Chen,Mukund Varma T,Zexiang Xu,Hao Su |
発行日 | 2023-06-29 13:28:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google