Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

要約

最近、テキスト プロンプトからの 3D コンテンツ作成は、2D および 3D の普及モデルを活用することで目覚ましい進歩を示しています。
3D 拡散モデルはマルチビューの優れた一貫性を保証しますが、高品質で多様な 3D アセットを生成する能力は、3D データが限られているために妨げられます。
対照的に、2D 拡散モデルは、3D データを使用せずに優れた一般化と豊富な詳細を実現する蒸留アプローチを見つけます。
ただし、2D リフティング手法にはビューに依存しない固有のあいまいさがあり、テキスト プロンプトが一貫した 3D 結果を学習するための十分なガイダンスを提供できないという、深刻なマルチフェイス ヤヌスの問題が発生します。
コストのかかる視点認識モデルを再トレーニングする代わりに、簡単にアクセスできる粗い 3D 知識を最大限に活用してプロンプトを強化し、改良のための 2D リフティング最適化をガイドする方法を研究します。
この論文では、高忠実度、汎用性、幾何学的一貫性を同時に実現する新しいテキストから 3D へのフレームワークである Sherpa3D を提案します。
具体的には、3D 拡散モデルによって生成された粗い 3D プリアから導出される 1 対のガイド戦略、つまり幾何学的忠実度のための構造的ガイドと 3D 一貫性のための意味論的ガイドを設計します。
2 種類のガイダンスを採用する 2D 拡散モデルは、3D コンテンツを多様で高品質な結果で強化します。
広範な実験により、品質と 3D の一貫性の点で、最先端のテキストから 3D への変換方法よりも、当社の Sherpa3D の優位性が示されています。

要約(オリジナル)

Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.

arxiv情報

著者 Fangfu Liu,Diankun Wu,Yi Wei,Yongming Rao,Yueqi Duan
発行日 2023-12-11 18:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク