Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

要約

わずか数秒でテキストプロンプトから高品質の3Dメッシュを生成できるモデルを取得することが非常に望ましいです。
最近の試みは、安定した拡散(SD)などの事前に訓練されたテキストから画像間拡散モデルを3D表現のジェネレーター(トリプランなど)に採用していますが、十分な高品質の3Dトレーニングデータがないために品質が低いことがよくあります。
データ不足の克服を目指して、進歩的なレンダリング蒸留(PRD)と呼ばれる新しいトレーニングスキームを提案し、マルチビュー拡散モデルを蒸留し、SDをネイティブ3Dジェネレーターに適応させることにより、3Dグラウンドトゥルースの必要性を排除します。
トレーニングの各反復で、PRDはU-NETを使用して、数ステップでランダムノイズから潜在性を徐々に除去し、各ステップで除去された潜在性を3D出力に解読します。
MVDREAMやRichDreamerを含むマルチビュー拡散モデルは、SDとジョイントで使用され、スコアの蒸留を通じてテキスト親和なテクスチャと3D出力にジオメトリを蒸留します。
PRDは3Dのグラウンドトゥルースなしでトレーニングをサポートしているため、トレーニングデータを簡単に拡大し、創造的な概念を備えた挑戦的なテキストプロンプトの生成品質を向上させることができます。
一方、PRDは、わずか数ステップで生成モデルの推論速度を加速することができます。
PRDを使用すると、Triplaneジェネレーター、すなわちTriplaneturboをトレーニングします。これは、SDをトリプラン生成に適応させるために$ 2.5 \%$トレーニング可能なパラメーターを追加します。
Triplaneturboは、効率と品質の両方で、以前のテキストから3Dジェネレーターよりも優れています。
具体的には、1.2秒で高品質の3Dメッシュを生成し、挑戦的なテキスト入力のためによく一般化できます。
このコードは、https://github.com/theericma/triplaneturboで入手できます。

要約(オリジナル)

It is highly desirable to obtain a model that can generate high-quality 3D meshes from text prompts in just seconds. While recent attempts have adapted pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into generators of 3D representations (e.g., Triplane), they often suffer from poor quality due to the lack of sufficient high-quality 3D training data. Aiming at overcoming the data shortage, we propose a novel training scheme, termed as Progressive Rendering Distillation (PRD), eliminating the need for 3D ground-truths by distilling multi-view diffusion models and adapting SD into a native 3D generator. In each iteration of training, PRD uses the U-Net to progressively denoise the latent from random noise for a few steps, and in each step it decodes the denoised latent into 3D output. Multi-view diffusion models, including MVDream and RichDreamer, are used in joint with SD to distill text-consistent textures and geometries into the 3D outputs through score distillation. Since PRD supports training without 3D ground-truths, we can easily scale up the training data and improve generation quality for challenging text prompts with creative concepts. Meanwhile, PRD can accelerate the inference speed of the generation model in just a few steps. With PRD, we train a Triplane generator, namely TriplaneTurbo, which adds only $2.5\%$ trainable parameters to adapt SD for Triplane generation. TriplaneTurbo outperforms previous text-to-3D generators in both efficiency and quality. Specifically, it can produce high-quality 3D meshes in 1.2 seconds and generalize well for challenging text input. The code is available at https://github.com/theEricMa/TriplaneTurbo.

arxiv情報

著者 Zhiyuan Ma,Xinyue Liang,Rongyuan Wu,Xiangyu Zhu,Zhen Lei,Lei Zhang
発行日 2025-03-27 16:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク