要約
既存のスコアディスティレーションサンプリング(SDS)ベースの手法は、テキストから3Dへの生成において大きな進歩をもたらした。しかし、SDSベースの手法によって生成された3Dモデルは、過剰な平滑化と低品質の出力を示す傾向がある。これらの問題は、モデルを更新するために使用されるスコアが複数のモードの間で揺れ動き、不安定な最適化と出力品質の低下をもたらす、現在の手法のモードシーク動作から生じる。この問題に対処するために、我々はISDと名付けた新しい画像即興スコア蒸留損失を導入する。この損失は、テキストから3次元への最適化を特定のモードへ向けるために参照画像を用いる。我々のISD損失は、画像プロンプト機能をテキストから画像への拡散モデルに統合するための軽量アダプタであるIP-Adapterをモード選択モジュールとして用いることで実装できる。このアダプタの変形は、参照画像によるプロンプトがないとき、スコア推定値の分散を減らすための効率的な制御変数として機能し、それによって出力品質と最適化の安定性の両方を向上させることができる。我々の実験では、T3Benchベンチマークスイートでの定性的・定量的評価により、ISD損失が一貫して視覚的に首尾一貫した高品質の出力を達成し、先行するテキストから3Dへの手法と比較して最適化速度を向上させることが実証された。
要約(オリジナル)
Existing Score Distillation Sampling (SDS)-based methods have driven significant progress in text-to-3D generation. However, 3D models produced by SDS-based methods tend to exhibit over-smoothing and low-quality outputs. These issues arise from the mode-seeking behavior of current methods, where the scores used to update the model oscillate between multiple modes, resulting in unstable optimization and diminished output quality. To address this problem, we introduce a novel image prompt score distillation loss named ISD, which employs a reference image to direct text-to-3D optimization toward a specific mode. Our ISD loss can be implemented by using IP-Adapter, a lightweight adapter for integrating image prompt capability to a text-to-image diffusion model, as a mode-selection module. A variant of this adapter, when not being prompted by a reference image, can serve as an efficient control variate to reduce variance in score estimates, thereby enhancing both output quality and optimization stability. Our experiments demonstrate that the ISD loss consistently achieves visually coherent, high-quality outputs and improves optimization speed compared to prior text-to-3D methods, as demonstrated through both qualitative and quantitative evaluations on the T3Bench benchmark suite.
arxiv情報
著者 | Uy Dieu Tran,Minh Luu,Phong Ha Nguyen,Khoi Nguyen,Binh-Son Hua |
発行日 | 2025-03-03 16:00:39+00:00 |
arxivサイト | arxiv_id(pdf) |