PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion

要約

このペーパーでは、事前トレーニングされたテキストから画像への拡散モデルを利用して高品質の 3D 形状を数分で生成する、新しく効率的なフレームワークである PI3D を紹介します。
一方で、事前トレーニングされた 2D 拡散モデルを 3D 拡散モデルに微調整し、3D 生成機能と 2D モデルから派生した一般化の両方を可能にします。
もう 1 つは、2D 拡散モデルのスコア蒸留サンプリングを利用して、サンプリングされた 3D 形状の品質を迅速に向上させます。
PI3D では、画像を一連の擬似画像として扱うことで、画像からトリプレーン生成への知識の移行が可能になります。
事前トレーニング モデルのモジュールを適応させて、擬似画像と実際の画像を使用したハイブリッド トレーニングを可能にします。これは、一般化性を向上させるための十分に確立された戦略であることが証明されています。
PI3D の効率は、さまざまな 3D モデルを数秒でサンプリングし、数分で改良できる能力によって際立っています。
実験結果は、一貫した高品質の 3D モデルを高速に生成するという点で、3D 拡散モデルまたはリフティング 2D 拡散モデルに基づく既存の方法と比較した PI3D の利点を裏付けています。
提案された PI3D は、テキストから 3D への生成の分野における有望な進歩であり、2D と 3D データの両方の知識を活用した 3D 生成の研究がさらに促進されることを期待しています。

要約(オリジナル)

In this paper, we introduce PI3D, a novel and efficient framework that utilizes the pre-trained text-to-image diffusion models to generate high-quality 3D shapes in minutes. On the one hand, it fine-tunes a pre-trained 2D diffusion model into a 3D diffusion model, enabling both 3D generative capabilities and generalization derived from the 2D model. On the other, it utilizes score distillation sampling of 2D diffusion models to quickly improve the quality of the sampled 3D shapes. PI3D enables the migration of knowledge from image to triplane generation by treating it as a set of pseudo-images. We adapt the modules in the pre-training model to enable hybrid training using pseudo and real images, which has proved to be a well-established strategy for improving generalizability. The efficiency of PI3D is highlighted by its ability to sample diverse 3D models in seconds and refine them in minutes. The experimental results confirm the advantages of PI3D over existing methods based on either 3D diffusion models or lifting 2D diffusion models in terms of fast generation of 3D consistent and high-quality models. The proposed PI3D stands as a promising advancement in the field of text-to-3D generation, and we hope it will inspire more research into 3D generation leveraging the knowledge in both 2D and 3D data.

arxiv情報

著者 Ying-Tian Liu,Guan Luo,Heyi Sun,Wei Yin,Yuan-Chen Guo,Song-Hai Zhang
発行日 2023-12-14 16:04:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク