要約
近年、視覚合成の性能は大きく飛躍しているが、これは主に生成モデルの飛躍的な進歩によるものである。拡散モデルは、画像の多様性に優れているため、重要な実現手段となっている。しかし、これは学習と合成に時間がかかるという代償を伴い、潜在拡散によって部分的にしか軽減されない。このため、フローマッチングは、より高速な学習と推論が可能であるが、合成の多様性は低いという相補的な特徴を持つ魅力的なアプローチである。我々は、凍結拡散モデルと畳み込みデコーダの間にフローマッチングを導入することで、計算コストとモデルサイズを削減しながら高解像度画像合成が可能になることを実証する。小さな拡散モデルは必要な視覚的多様性を効果的に提供し、フローマッチングは小さな拡散モデルを高次元潜在空間にマッピングすることで解像度とディテールを効率的に向上させる。これらの潜在は、その後の潜在拡散アプローチの畳み込みデコーダによって高解像度画像に投影される。拡散モデルの多様性、フローマッチングの効率性、畳み込みデコーダの有効性を組み合わせることで、最小の計算コストで$1024^2$ピクセルの最先端の高解像度画像合成が達成される。我々の手法をさらにスケールアップすれば、$2048^2$ピクセルまでの解像度に到達できる。重要なことは、我々のアプローチは、基礎となるモデルの最近の近似戦略や高速化戦略と直交しており、様々な拡散モデルのフレームワークに容易に統合可能であることである。
要約(オリジナル)
Visual synthesis has recently seen significant leaps in performance, largely due to breakthroughs in generative models. Diffusion models have been a key enabler, as they excel in image diversity. However, this comes at the cost of slow training and synthesis, which is only partially alleviated by latent diffusion. To this end, flow matching is an appealing approach due to its complementary characteristics of faster training and inference but less diverse synthesis. We demonstrate that introducing flow matching between a frozen diffusion model and a convolutional decoder enables high-resolution image synthesis at reduced computational cost and model size. A small diffusion model can then effectively provide the necessary visual diversity, while flow matching efficiently enhances resolution and detail by mapping the small to a high-dimensional latent space. These latents are then projected to high-resolution images by the subsequent convolutional decoder of the latent diffusion approach. Combining the diversity of diffusion models, the efficiency of flow matching, and the effectiveness of convolutional decoders, state-of-the-art high-resolution image synthesis is achieved at $1024^2$ pixels with minimal computational cost. Further scaling up our method we can reach resolutions up to $2048^2$ pixels. Importantly, our approach is orthogonal to recent approximation and speed-up strategies for the underlying model, making it easily integrable into the various diffusion model frameworks.
arxiv情報
著者 | Johannes Schusterbauer,Ming Gui,Pingchuan Ma,Nick Stracke,Stefan A. Baumann,Vincent Tao Hu,Björn Ommer |
発行日 | 2024-12-04 17:58:35+00:00 |
arxivサイト | arxiv_id(pdf) |