要約
最近、視覚合成とその基礎となる生成モデルにおいて大きな進歩が見られました。
ここでは特に拡散モデル(DM)が目立ちますが、最近ではフローマッチング(FM)も注目を集めています。
DM は多様な画像を提供することに優れていますが、トレーニングに時間がかかり、生成が遅いという問題があります。
潜在的な拡散では、これらの問題は部分的にしか軽減されません。
逆に、FM はより高速なトレーニングと推論を提供しますが、合成の多様性は低くなります。
拡散モデルと畳み込みデコーダの間に FM を導入すると、計算コストとモデル サイズが削減され、高解像度の画像合成が提供されることを実証します。
拡散により、必要な世代の多様性が効率的に提供されます。
FM は解像度の低下を補い、小さな潜在空間を高次元の空間にマッピングします。
その後、LDM の畳み込みデコーダーがこれらの潜在データを高解像度画像にマッピングします。
DM の多様性、FM の効率、畳み込みデコーダの有効性を組み合わせることで、最小限の計算コストで $1024^2$ で最先端の高解像度画像合成を実現します。
重要なのは、私たちのアプローチは基礎となる DM の最近の近似および高速化戦略と直交しており、さまざまな DM フレームワークに簡単に統合できることです。
要約(オリジナル)
Recently, there has been tremendous progress in visual synthesis and the underlying generative models. Here, diffusion models (DMs) stand out particularly, but lately, flow matching (FM) has also garnered considerable interest. While DMs excel in providing diverse images, they suffer from long training and slow generation. With latent diffusion, these issues are only partially alleviated. Conversely, FM offers faster training and inference but exhibits less diversity in synthesis. We demonstrate that introducing FM between the Diffusion model and the convolutional decoder offers high-resolution image synthesis with reduced computational cost and model size. Diffusion can then efficiently provide the necessary generation diversity. FM compensates for the lower resolution, mapping the small latent space to a high-dimensional one. Subsequently, the convolutional decoder of the LDM maps these latents to high-resolution images. By combining the diversity of DMs, the efficiency of FMs, and the effectiveness of convolutional decoders, we achieve state-of-the-art high-resolution image synthesis at $1024^2$ with minimal computational cost. Importantly, our approach is orthogonal to recent approximation and speed-up strategies for the underlying DMs, making it easily integrable into various DM frameworks.
arxiv情報
著者 | Johannes S. Fischer,Ming Gui,Pingchuan Ma,Nick Stracke,Stefan A. Baumann,Björn Ommer |
発行日 | 2024-03-28 17:35:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google