要約
拡散蒸留は、少数のサンプリング ステップで忠実なテキストから画像への生成を達成するための非常に有望な方向性を表します。
しかし、最近の成功にもかかわらず、既存の蒸留モデルは依然として、多くの正確な画像操作方法を可能にする実像反転などの拡散能力の全範囲を提供していません。
この研究は、実際の画像を潜在空間に効果的にエンコードする機能を備えた、抽出されたテキストから画像への拡散モデルを強化することを目的としています。
この目的を達成するために、わずか 3 ~ 4 の推論ステップで高品質の画像合成と正確な画像エンコードの両方を容易にする一般化された整合性蒸留フレームワークである可逆的整合性蒸留 (iCD) を導入します。
テキストから画像への拡散モデルの反転問題は、分類器を使用しない高度なガイダンス スケールによって悪化しますが、動的ガイダンスにより、生成パフォーマンスの顕著な低下なしに再構築エラーが大幅に減少することがわかりました。
その結果、ダイナミック ガイダンスを備えた iCD が、より高価な最先端の代替手段と競合する、ゼロショット テキスト ガイドによる画像編集のための非常に効果的なツールとして機能する可能性があることを実証しました。
要約(オリジナル)
Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives.
arxiv情報
著者 | Nikita Starodubcev,Mikhail Khoroshikh,Artem Babenko,Dmitry Baranchuk |
発行日 | 2024-06-20 17:49:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google