MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning

要約

拡散モデルは、その優れた機能により、テキストから画像への生成の最有力候補として浮上しました。
それにもかかわらず、トレーニング中の画像解像度が固定されているため、高解像度画像の生成では、セマンティックの不正確さやオブジェクトの複製などの課題が発生することがよくあります。
この文書では、既存の拡散ベースのテキストから画像への生成モデルを、追加の微調整や追加の適応を必要とせずに効率的な高解像度生成に拡張する新しいアプローチである MegaFusion を紹介します。
具体的には、革新的なトランケートおよびリレー戦略を採用して、さまざまな解像度にわたるノイズ除去プロセスを橋渡しし、粗いものから細かいものまで高解像度の画像を生成できるようにします。
さらに、拡張畳み込みとノイズの再スケジュールを統合することで、モデルの事前分布をさらに高解像度に適応させます。
MegaFusion の多用途性と有効性により、他の派生モデルとともに、潜在空間とピクセル空間の両方の拡散モデルに広く適用できます。
広範な実験により、MegaFusion は、元の計算コストの約 40% のみを必要としながら、メガピクセルとさまざまなアスペクト比の画像を生成する既存モデルの能力を大幅に向上させることが確認されました。

要約(オリジナル)

Diffusion models have emerged as frontrunners in text-to-image generation for their impressive capabilities. Nonetheless, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic inaccuracies and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model’s priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.

arxiv情報

著者 Haoning Wu,Shaocheng Shen,Qiang Hu,Xiaoyun Zhang,Ya Zhang,Yanfeng Wang
発行日 2024-08-20 16:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク