要約
拡散モデルは画像生成における現在の最先端技術であり、生成プロセスを多くのきめ細かいノイズ除去ステップに分割することで高品質の画像を合成します。
拡散モデルは優れたパフォーマンスにもかかわらず、計算コストが高く、多くの神経機能評価 (NFE) が必要です。
この研究では、完了前の任意の時点で停止したときに実行可能な画像を生成できる、いつでも拡散ベースの方法を提案します。
既存の事前トレーニング済み拡散モデルを使用して、生成スキームを 2 つの入れ子になった拡散プロセスとして再構成できることを示し、生成された画像の高速な反復改良を可能にします。
ImageNet と Stable Diffusion ベースのテキストから画像への生成に関する実験では、私たちの方法の中間生成品質が元の拡散モデルの品質を大幅に上回っている一方で、最終生成結果は同等のままであることを定性的および定量的に示しました。
逆問題の解決や、サンプリング プロセス全体を通じてユーザーの介入を許可することによるテキストベースのコンテンツの迅速な作成など、いくつかの設定におけるネストされた拡散の適用性を示します。
要約(オリジナル)
Diffusion models are the current state-of-the-art in image generation, synthesizing high-quality images by breaking down the generation process into many fine-grained denoising steps. Despite their good performance, diffusion models are computationally expensive, requiring many neural function evaluations (NFEs). In this work, we propose an anytime diffusion-based method that can generate viable images when stopped at arbitrary times before completion. Using existing pretrained diffusion models, we show that the generation scheme can be recomposed as two nested diffusion processes, enabling fast iterative refinement of a generated image. In experiments on ImageNet and Stable Diffusion-based text-to-image generation, we show, both qualitatively and quantitatively, that our method’s intermediate generation quality greatly exceeds that of the original diffusion model, while the final generation result remains comparable. We illustrate the applicability of Nested Diffusion in several settings, including for solving inverse problems, and for rapid text-based content creation by allowing user intervention throughout the sampling process.
arxiv情報
著者 | Noam Elata,Bahjat Kawar,Tomer Michaeli,Michael Elad |
発行日 | 2023-07-07 13:25:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google