Consistent Flow Distillation for Text-to-3D Generation


スコア蒸留サンプリング (SDS) は、3D 生成用の画像生成モデルの蒸留において大幅な進歩を遂げました。
ただし、その最大尤度を求める動作により、多くの場合、視覚的な品質と多様性が低下し、3D アプリケーションでの有効性が制限されます。
この研究では、これらの制限に対処する一貫流蒸留 (CFD) を提案します。
まず、拡散 ODE または SDE サンプリング プロセスの勾配を利用して 3D 生成をガイドします。
勾配ベースのサンプリングの観点から、高品質の 3D 生成には、さまざまな視点にわたる 2D 画像フローの一貫性が重要であることがわかります。
これを達成するために、3D オブジェクトにマルチビューの一貫したガウス ノイズを導入します。これは、流れの勾配を計算するためにさまざまな視点からレンダリングできます。
私たちの実験は、CFD が一貫したフローを通じて、テキストから 3D への生成において以前の方法よりも大幅に優れていることを示しています。


Score Distillation Sampling (SDS) has made significant strides in distilling image-generative models for 3D generation. However, its maximum-likelihood-seeking behavior often leads to degraded visual quality and diversity, limiting its effectiveness in 3D applications. In this work, we propose Consistent Flow Distillation (CFD), which addresses these limitations. We begin by leveraging the gradient of the diffusion ODE or SDE sampling process to guide the 3D generation. From the gradient-based sampling perspective, we find that the consistency of 2D image flows across different viewpoints is important for high-quality 3D generation. To achieve this, we introduce multi-view consistent Gaussian noise on the 3D object, which can be rendered from various viewpoints to compute the flow gradient. Our experiments demonstrate that CFD, through consistent flows, significantly outperforms previous methods in text-to-3D generation.


著者 Runjie Yan,Yinbo Chen,Xiaolong Wang
発行日 2025-01-09 18:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク