ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

要約

スコア抽出サンプリング (SDS) は、事前トレーニングされた大規模なテキストから画像への拡散モデルを抽出することにより、テキストから 3D への生成に大きな期待を示していますが、過飽和、過剰平滑化、および低多様性の問題に悩まされています。
この研究では、SDS のような定数ではなく確率変数として 3D パラメータをモデル化することを提案し、テキストからテキストへの変換で前述の問題を説明し対処するための原理に基づいた粒子ベースの変分フレームワークである変分スコア蒸留 (VSD) を提示します。
3D 生成。
SDS は VSD の特殊なケースであり、CFG 重みが小さい場合と大きい場合の両方でサンプルの品質が低下することを示します。
比較すると、VSD は拡散モデルからの祖先サンプリングとしてさまざまな CFG 重みでうまく機能し、同時に共通の CFG 重み (つまり $7.5$) で多様性とサンプル品質を向上させます。
さらに、蒸留アルゴリズムとは直交するものの、まだ十分に検討されていない、蒸留タイム スケジュールや密度初期化など、Text-to-3D の設計空間におけるさまざまな改善点を示します。
ProlificDreamer と呼ばれる私たちの全体的なアプローチは、高いレンダリング解像度 (つまり $512\times512$) と、豊富な構造と複雑なエフェクト (煙や水滴など) を備えた高忠実度の NeRF を生成できます。
さらに、NeRF から初期化され、VSD によって微調整されたメッシュは、細心の注意を払って詳細に作られており、写真のようにリアルです。
プロジェクトページ:https://ml.cs.tsinghua.edu.cn/prolificdreamer/

要約(オリジナル)

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., $7.5$). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., $512\times512$) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

arxiv情報

著者 Zhengyi Wang,Cheng Lu,Yikai Wang,Fan Bao,Chongxuan Li,Hang Su,Jun Zhu
発行日 2023-05-25 16:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク