BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion

要約

テキストから画像への拡散モデルの進化を目の当たりにして、テキストから 3D への生成は大幅に進歩しました。
現在、Text-to-3D の分野では 2 つの主要なパラダイムが主流となっています。1 つはフィードフォワード生成ソリューションで、3D アセットを迅速に生成できるものの、多くの場合粗い結果が得られます。もう 1 つは、高品質のデータを生成することで知られるスコア蒸留サンプリング (SDS) ベースのソリューションです。
ペースは遅くなりますが、3D アセットを忠実に再現します。
これらの方法を相乗的に統合することにより、3D 生成技術の進歩が大きく期待できます。
このペーパーでは、粗い 3D アセットを高品質に変換するように設計された、高効率のプラグアンドプレイ 3D リファイン方法である BoostDream について紹介します。
BoostDream フレームワークは 3 つの異なるプロセスで構成されます。 (1) フィードフォワード生成を通じて取得された 3D アセットから微分可能な表現に適合する 3D モデルの蒸留を導入します。
(2) 新しいマルチビュー SDS 損失が設計され、マルチビュー対応 2D 拡散モデルを利用して 3D アセットを改良します。
(3) 私たちは、改良の指針として迅速かつマルチビューの一貫性のある法線マップを使用することを提案します。私たちの広範な実験は、さまざまな微分可能な 3D 表現に対して行われ、BoostDream が高品質の 3D アセットを迅速に生成する点で優れており、Janus 問題を克服していることが明らかになりました。
従来のSDSベースの方法。
この画期的な進歩は、3D 生成プロセスの効率と品質の両方における大幅な進歩を意味します。

要約(オリジナル)

Witnessing the evolution of text-to-image diffusion models, significant strides have been made in text-to-3D generation. Currently, two primary paradigms dominate the field of text-to-3D: the feed-forward generation solutions, capable of swiftly producing 3D assets but often yielding coarse results, and the Score Distillation Sampling (SDS) based solutions, known for generating high-fidelity 3D assets albeit at a slower pace. The synergistic integration of these methods holds substantial promise for advancing 3D generation techniques. In this paper, we present BoostDream, a highly efficient plug-and-play 3D refining method designed to transform coarse 3D assets into high-quality. The BoostDream framework comprises three distinct processes: (1) We introduce 3D model distillation that fits differentiable representations from the 3D assets obtained through feed-forward generation. (2) A novel multi-view SDS loss is designed, which utilizes a multi-view aware 2D diffusion model to refine the 3D assets. (3) We propose to use prompt and multi-view consistent normal maps as guidance in refinement.Our extensive experiment is conducted on different differentiable 3D representations, revealing that BoostDream excels in generating high-quality 3D assets rapidly, overcoming the Janus problem compared to conventional SDS-based methods. This breakthrough signifies a substantial advancement in both the efficiency and quality of 3D generation processes.

arxiv情報

著者 Yonghao Yu,Shunan Zhu,Huai Qin,Haorui Li
発行日 2024-09-17 16:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク