Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching

要約

事前に訓練された2D拡散モデルを3D資産に蒸留することで、テキストから3D合成の顕著な進歩が促進されています。
ただし、既存の方法は通常、スコア蒸留サンプリング(SDS)損失に依存しています。これには、非対称KLの発散が含まれます。これは、モードを求める行動を本質的に支持し、生成の多様性を制限する定式化です。
このペーパーでは、KLベースの目標をスコア暗黙のマッチング(SIM)損失に置き換える新しいテキストから3Dの生成フレームワークであるDive3Dを紹介します。
さらに、DIVE3Dは、統一された発散の観点の下で、拡散蒸留と報酬誘導最適化の両方を統合します。
このような再定式化は、SIMの損失とともに、テキストの調整、人間の好み、および全体的な視覚的忠実度を改善しながら、大幅に多様な3D出力をもたらします。
さまざまな2D対3DプロンプトにわたってDIVE3Dを検証し、多様性、フォトリアリズム、審美的な魅力など、定性的評価の以前の方法よりも一貫して優れていることがわかります。
さらに、GPTEVAL3Dベンチマークでのパフォーマンスを評価し、9つの最先端のベースラインと比較します。
DIVE3Dは、テキストアセットのアライメント、3Dの妥当性、テキスト – 幾何学の一貫性、テクスチャの品質、幾何学的な詳細など、定量的メトリックに関する強力な結果も達成されます。

要約(オリジナル)

Distilling pre-trained 2D diffusion models into 3D assets has driven remarkable advances in text-to-3D synthesis. However, existing methods typically rely on Score Distillation Sampling (SDS) loss, which involves asymmetric KL divergence–a formulation that inherently favors mode-seeking behavior and limits generation diversity. In this paper, we introduce Dive3D, a novel text-to-3D generation framework that replaces KL-based objectives with Score Implicit Matching (SIM) loss, a score-based objective that effectively mitigates mode collapse. Furthermore, Dive3D integrates both diffusion distillation and reward-guided optimization under a unified divergence perspective. Such reformulation, together with SIM loss, yields significantly more diverse 3D outputs while improving text alignment, human preference, and overall visual fidelity. We validate Dive3D across various 2D-to-3D prompts and find that it consistently outperforms prior methods in qualitative assessments, including diversity, photorealism, and aesthetic appeal. We further evaluate its performance on the GPTEval3D benchmark, comparing against nine state-of-the-art baselines. Dive3D also achieves strong results on quantitative metrics, including text-asset alignment, 3D plausibility, text-geometry consistency, texture quality, and geometric detail.

arxiv情報

著者 Weimin Bai,Yubo Li,Wenzheng Chen,Weijian Luo,He Sun
発行日 2025-06-16 15:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク