要約
拡散モデルによるテキストから 3D への変換は、近年目覚ましい進歩を遂げています。
ただし、既存の手法は、推論の遅さ、多様性の低さ、ヤヌス問題といったスコア蒸留ベースの最適化に依存しているか、フィードフォワード手法であるため、3D トレーニング データの不足により低品質の結果が生成されます。
本稿では、テキストプロンプトからフィードフォワード方式で高品質かつ多様な 3D アセットを生成する新しい手法である Instant3D を提案します。
私たちは 2 段階のパラダイムを採用しています。このパラダイムでは、まず、微調整された 2D テキストから画像への拡散モデルを使用して、テキストから 4 つの構造化された一貫したビューのまばらなセットを 1 ショットで生成し、次に生成された画像から NeRF を直接回帰します。
新しいトランスフォーマベースのスパースビュー再構成器。
広範な実験を通じて、私たちの方法が高品質で多様なヤヌスフリーの 3D アセットを 20 秒以内に生成できることを実証しました。これは、1 ~ 10 時間かかる可能性がある以前の最適化ベースの方法よりも 2 桁高速です。
私たちのプロジェクトのウェブページ: https://jiahao.ai/instant3d/。
要約(オリジナル)
Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
arxiv情報
著者 | Jiahao Li,Hao Tan,Kai Zhang,Zexiang Xu,Fujun Luan,Yinghao Xu,Yicong Hong,Kalyan Sunkavalli,Greg Shakhnarovich,Sai Bi |
発行日 | 2023-11-10 18:03:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google