DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model

要約

最近、SDS 手法の登場により、テキストを 3D に変換するタスクが急速に発展しました。
ただし、SDS メソッドでは、滑らかすぎる問題により、常に低品質の 3D オブジェクトが生成されます。
この問題は 2 つの要因に起因します。1) DDPM のシングルステップ推論が生成するガイダンス勾配が不十分である。
2) 入力ノイズとタイムステップからのランダム性により、3D コンテンツの詳細が平均化されます。
本稿では、この問題に対処するために、潜在一貫性モデル (LCM) を組み込んだ DreamLCM を提案します。
DreamLCM は、LCM に固有の強力な画像生成機能を活用し、一貫した高品質のガイダンス、つまり予測ノイズや画像の生成を可能にします。
改善されたガイダンスを利用して、提案された方法は、ターゲットの 3D モデルを最適化するための正確かつ詳細な勾配を提供できます。
さらに、生成品質をさらに向上させるための 2 つの戦略を提案します。
まず、オイラー ソルバーを利用してガイダンス分布を調整し、3D モデルの収束を加速するガイダンス キャリブレーション戦略を提案します。
次に、ガイダンスの一貫性を高め、DreamLCM のジオメトリから外観に至るまで 3D モデルを最適化する、デュアル タイムステップ戦略を提案します。
実験では、DreamLCM が生成品質とトレーニング効率の両方において最先端の結果を達成することが示されています。
コードは https://github.com/1YimingZhong/DreamLCM で入手できます。

要約(オリジナル)

Recently, the text-to-3D task has developed rapidly due to the appearance of the SDS method. However, the SDS method always generates 3D objects with poor quality due to the over-smooth issue. This issue is attributed to two factors: 1) the DDPM single-step inference produces poor guidance gradients; 2) the randomness from the input noises and timesteps averages the details of the 3D contents. In this paper, to address the issue, we propose DreamLCM which incorporates the Latent Consistency Model (LCM). DreamLCM leverages the powerful image generation capabilities inherent in LCM, enabling generating consistent and high-quality guidance, i.e., predicted noises or images. Powered by the improved guidance, the proposed method can provide accurate and detailed gradients to optimize the target 3D models. In addition, we propose two strategies to enhance the generation quality further. Firstly, we propose a guidance calibration strategy, utilizing Euler Solver to calibrate the guidance distribution to accelerate 3D models to converge. Secondly, we propose a dual timestep strategy, increasing the consistency of guidance and optimizing 3D models from geometry to appearance in DreamLCM. Experiments show that DreamLCM achieves state-of-the-art results in both generation quality and training efficiency. The code is available at https://github.com/1YimingZhong/DreamLCM.

arxiv情報

著者 Yiming Zhong,Xiaolin Zhang,Yao Zhao,Yunchao Wei
発行日 2024-08-09 14:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク