要約
スコア蒸留サンプリング (SDS) は、最近ではありますが、すでに広く普及している手法であり、画像拡散モデルに依存し、テキスト プロンプトを使用して最適化問題を制御します。
この論文では、SDS 損失関数の詳細な分析を実施し、その定式化に固有の問題を特定し、驚くほど簡単だが効果的な修正方法を提案します。
具体的には、損失をさまざまな要因に分解し、ノイズの多い勾配の原因となるコンポーネントを分離します。
元の定式化では、ノイズを考慮するために高テキスト ガイダンスが使用され、望ましくない副作用が発生します。
代わりに、画像拡散モデルのタイムステップ依存のノイズ除去欠陥を模倣した浅いネットワークをトレーニングして、効果的に除去します。
最適化ベースの画像合成と編集、ゼロショット画像変換ネットワークのトレーニング、テキストから 3D への合成など、いくつかの定性的および定量的な実験を通じて、新しい損失定式化の多用途性と有効性を実証します。
要約(オリジナル)
Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects. Instead, we train a shallow network mimicking the timestep-dependent denoising deficiency of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through several qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
arxiv情報
著者 | Thiemo Alldieck,Nikos Kolotouros,Cristian Sminchisescu |
発行日 | 2024-01-10 17:51:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google