DreamFusion: Text-to-3D using 2D Diffusion

要約

テキストから画像への合成における最近のブレークスルーは、何十億もの画像とテキストのペアでトレーニングされた拡散モデルによって推進されています。
このアプローチを 3D 合成に適用するには、ラベル付けされた 3D データの大規模なデータセットと、3D データのノイズを除去するための効率的なアーキテクチャが必要になりますが、どちらも現在存在しません。
この作業では、事前トレーニング済みの 2D テキストから画像への拡散モデルを使用してテキストから 3D への合成を実行することにより、これらの制限を回避します。
パラメトリック イメージ ジェネレーターの最適化のための事前確率として 2D 拡散モデルの使用を可能にする確率密度蒸留に基づく損失を導入します。
DeepDream のような手順でこの損失を使用して、ランダムな角度からの 2D レンダリングが低損失を達成するように、勾配降下を介してランダムに初期化された 3D モデル (Neural Radiance Field、または NeRF) を最適化します。
得られたテキストの 3D モデルは、任意の角度から表示したり、任意の照明で再照明したり、任意の 3D 環境に合成したりできます。
私たちのアプローチは、3D トレーニング データや画像拡散モデルの変更を必要とせず、事前にトレーニングされた画像拡散モデルの有効性を示しています。

要約(オリジナル)

Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthesis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circumvent these limitations by using a pretrained 2D text-to-image diffusion model to perform text-to-3D synthesis. We introduce a loss based on probability density distillation that enables the use of a 2D diffusion model as a prior for optimization of a parametric image generator. Using this loss in a DeepDream-like procedure, we optimize a randomly-initialized 3D model (a Neural Radiance Field, or NeRF) via gradient descent such that its 2D renderings from random angles achieve a low loss. The resulting 3D model of the given text can be viewed from any angle, relit by arbitrary illumination, or composited into any 3D environment. Our approach requires no 3D training data and no modifications to the image diffusion model, demonstrating the effectiveness of pretrained image diffusion models as priors.

arxiv情報

著者 Ben Poole,Ajay Jain,Jonathan T. Barron,Ben Mildenhall
発行日 2022-09-29 17:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク