Rethinking Score Distillation as a Bridge Between Image Distributions

要約

スコア蒸留サンプリング (SDS) は重要なツールであることが証明されており、データが乏しい領域で動作するタスクに大規模な拡散事前分布の使用を可能にします。
残念ながら、SDS には、汎用アプリケーションでの有用性を制限する特徴的なアーティファクトが多数あります。
このペーパーでは、SDS とそのバリアントを、ソース ディストリビューションからターゲット ディストリビューションへの最適コストのトランスポート パスを解決するものとして見ることで、その動作の理解に向けて前進します。
この新しい解釈の下では、これらの方法は、破損した画像 (ソース) を自然な画像分布 (ターゲット) に転送しようとします。
現在の方法の特徴的なアーティファクトは、(1) 最適パスの線形近似、および (2) ソース分布の不適切な推定によって引き起こされると主張します。
ソース配布のテキスト コンディショニングを調整することで、追加のオーバーヘッドをほとんど発生させずに高品質の生成および翻訳結果を生成できることを示します。
私たちのメソッドは多くのドメインに簡単に適用でき、特殊なメソッドのパフォーマンスに匹敵する、またはそれを上回ります。
テキストから 2D への変換、テキストベースの NeRF 最適化、絵画から実画像への変換、錯視の生成、および 3D スケッチから実体への変換におけるその有用性を実証します。
私たちの方法をスコア蒸留サンプリングの既存のアプローチと比較し、それがリアルな色で高周波の詳細を生成できることを示します。

要約(オリジナル)

Score distillation sampling (SDS) has proven to be an important tool, enabling the use of large-scale diffusion priors for tasks operating in data-poor domains. Unfortunately, SDS has a number of characteristic artifacts that limit its usefulness in general-purpose applications. In this paper, we make progress toward understanding the behavior of SDS and its variants by viewing them as solving an optimal-cost transport path from a source distribution to a target distribution. Under this new interpretation, these methods seek to transport corrupted images (source) to the natural image distribution (target). We argue that current methods’ characteristic artifacts are caused by (1) linear approximation of the optimal path and (2) poor estimates of the source distribution. We show that calibrating the text conditioning of the source distribution can produce high-quality generation and translation results with little extra overhead. Our method can be easily applied across many domains, matching or beating the performance of specialized methods. We demonstrate its utility in text-to-2D, text-based NeRF optimization, translating paintings to real images, optical illusion generation, and 3D sketch-to-real. We compare our method to existing approaches for score distillation sampling and show that it can produce high-frequency details with realistic colors.

arxiv情報

著者 David McAllister,Songwei Ge,Jia-Bin Huang,David W. Jacobs,Alexei A. Efros,Aleksander Holynski,Angjoo Kanazawa
発行日 2024-06-13 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク