要約
スコア蒸留サンプリングは、テキストプロンプトから3Dモデルを生成するための効果的な手法であり、事前に訓練された大規模なテキストから画像間拡散モデルをガイダンスとして利用します。
ただし、生産された3D資産は、多様性が限られている、過剰飽和、過剰な滑らかになる傾向があります。
これらの問題は、逆カルバック – leibler(kl)発散目標の結果であり、最適化を不安定にし、モードを求める動作をもたらします。
このホワイトペーパーでは、ジェンセンシャノン分岐(JSD)に基づいた境界スコア蒸留目標を導き出し、最適化プロセスを安定させ、高品質の3D世代を生成します。
JSDは、よく生成された分布とターゲット分布に一致する可能性があるため、モードを緩和することができます。
識別子がよく訓練されていると仮定して、生成敵対的ネットワークの理論を利用して発電機の近似目的関数を定義することにより、JSDの実用的な実装を提供します。
Log-ODDS分類器に従って判別器を仮定することにより、提案された目的の勾配を推定するために少数サンプリングアルゴリズムを提案し、JSDの実用的な実装を提供します。
私たちは、理論的および経験的研究の両方を実施して、私たちの方法を検証します。
T3Benchでの実験結果は、私たちの方法が高品質で多様化した3D資産を生成できることを示しています。
要約(オリジナル)
Score distillation sampling is an effective technique to generate 3D models from text prompts, utilizing pre-trained large-scale text-to-image diffusion models as guidance. However, the produced 3D assets tend to be over-saturating, over-smoothing, with limited diversity. These issues are results from a reverse Kullback-Leibler (KL) divergence objective, which makes the optimization unstable and results in mode-seeking behavior. In this paper, we derive a bounded score distillation objective based on Jensen-Shannon divergence (JSD), which stabilizes the optimization process and produces high-quality 3D generation. JSD can match well generated and target distribution, therefore mitigating mode seeking. We provide a practical implementation of JSD by utilizing the theory of generative adversarial networks to define an approximate objective function for the generator, assuming the discriminator is well trained. By assuming the discriminator following a log-odds classifier, we propose a minority sampling algorithm to estimate the gradients of our proposed objective, providing a practical implementation for JSD. We conduct both theoretical and empirical studies to validate our method. Experimental results on T3Bench demonstrate that our method can produce high-quality and diversified 3D assets.
arxiv情報
著者 | Khoi Do,Binh-Son Hua |
発行日 | 2025-03-18 17:15:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google