Magic3D: High-Resolution Text-to-3D Content Creation

要約

DreamFusion は最近、学習済みのテキストから画像への拡散モデルを使用して Neural Radiance Fields (NeRF) を最適化し、テキストから 3D への素晴らしい合成結果を達成することを実証しました。
ただし、この方法には 2 つの固有の制限があります。(a) NeRF の最適化が非常に遅いこと、(b) NeRF での低解像度の画像空間の監視が原因で、処理時間が長い低品質の 3D モデルが生成されることです。
このホワイト ペーパーでは、2 段階の最適化フレームワークを利用して、これらの制限に対処します。
まず、低解像度の拡散事前分布を使用して粗いモデルを取得し、疎な 3D ハッシュ グリッド構造で加速します。
粗い表現を初期化として使用して、高解像度の潜在拡散モデルと相互作用する効率的な微分可能なレンダラーを使用して、テクスチャ付きの 3D メッシュ モデルをさらに最適化します。
Magic3D と呼ばれる私たちの方法は、高品質の 3D メッシュ モデルを 40 分で作成できます。これは、DreamFusion よりも 2 倍速く (平均で 1.5 時間かかると報告されています)、さらに高い解像度も実現します。
ユーザー調査では、61.7% の評価者が DreamFusion よりも当社のアプローチを好むことが示されています。
画像調整された生成機能とともに、3D 合成を制御する新しい方法をユーザーに提供し、さまざまなクリエイティブ アプリケーションへの新しい道を開きます。

要約(オリジナル)

DreamFusion has recently demonstrated the utility of a pre-trained text-to-image diffusion model to optimize Neural Radiance Fields (NeRF), achieving remarkable text-to-3D synthesis results. However, the method has two inherent limitations: (a) extremely slow optimization of NeRF and (b) low-resolution image space supervision on NeRF, leading to low-quality 3D models with a long processing time. In this paper, we address these limitations by utilizing a two-stage optimization framework. First, we obtain a coarse model using a low-resolution diffusion prior and accelerate with a sparse 3D hash grid structure. Using the coarse representation as the initialization, we further optimize a textured 3D mesh model with an efficient differentiable renderer interacting with a high-resolution latent diffusion model. Our method, dubbed Magic3D, can create high quality 3D mesh models in 40 minutes, which is 2x faster than DreamFusion (reportedly taking 1.5 hours on average), while also achieving higher resolution. User studies show 61.7% raters to prefer our approach over DreamFusion. Together with the image-conditioned generation capabilities, we provide users with new ways to control 3D synthesis, opening up new avenues to various creative applications.

arxiv情報

著者 Chen-Hsuan Lin,Jun Gao,Luming Tang,Towaki Takikawa,Xiaohui Zeng,Xun Huang,Karsten Kreis,Sanja Fidler,Ming-Yu Liu,Tsung-Yi Lin
発行日 2022-11-18 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク