要約
拡散モデルは画像生成における現在の最先端技術であり、生成プロセスを多くのきめ細かいノイズ除去ステップに分割することで高品質の画像を合成します。
拡散モデルは優れたパフォーマンスにもかかわらず、計算コストが高く、多くの神経機能評価 (NFE) が必要です。
この研究では、完了前の任意の時点で停止したときに実行可能な画像を生成できる、いつでも拡散ベースの方法を提案します。
既存の事前トレーニング済み拡散モデルを使用して、生成スキームを 2 つの入れ子になった拡散プロセスとして再構成できることを示し、生成された画像の高速な反復改良を可能にします。
このネストされた拡散アプローチを使用して、生成プロセスを覗き見し、ユーザーの瞬間的な好みに基づいた柔軟なスケジューリングを可能にします。
ImageNet と Stable Diffusion ベースのテキストから画像への生成に関する実験では、私たちの方法の中間生成の品質が元の拡散モデルの品質を大幅に上回っている一方で、最終的な低速生成の結果は同等のままであることを定性的および定量的に示しました。
要約(オリジナル)
Diffusion models are the current state-of-the-art in image generation, synthesizing high-quality images by breaking down the generation process into many fine-grained denoising steps. Despite their good performance, diffusion models are computationally expensive, requiring many neural function evaluations (NFEs). In this work, we propose an anytime diffusion-based method that can generate viable images when stopped at arbitrary times before completion. Using existing pretrained diffusion models, we show that the generation scheme can be recomposed as two nested diffusion processes, enabling fast iterative refinement of a generated image. We use this Nested Diffusion approach to peek into the generation process and enable flexible scheduling based on the instantaneous preference of the user. In experiments on ImageNet and Stable Diffusion-based text-to-image generation, we show, both qualitatively and quantitatively, that our method’s intermediate generation quality greatly exceeds that of the original diffusion model, while the final slow generation result remains comparable.
arxiv情報
著者 | Noam Elata,Bahjat Kawar,Tomer Michaeli,Michael Elad |
発行日 | 2023-05-30 14:28:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google