要約
拡散モデルは近年画像生成に革命をもたらしましたが、依然としていくつかのサイズとアスペクト比に制限されています。
我々は、事前トレーニングされたテキストから画像への拡散モデルがさまざまなサイズの画像を生成できるようにする、トレーニング不要の新しいデコード方法である ElasticDiffusion を提案します。
ElasticDiffusion は、事前トレーニングされたモデルの生成軌跡をローカル信号とグローバル信号に分離しようとします。
ローカル信号は低レベルのピクセル情報を制御し、ローカル パッチ上で推定できます。一方、グローバル信号は全体的な構造の一貫性を維持するために使用され、参照画像を使用して推定されます。
CelebA-HQ (顔) と LAION-COCO (オブジェクト/屋内/屋外シーン) でメソッドをテストします。
私たちの実験と定性的な結果は、MultiDiffusion や安定拡散の標準デコード戦略と比較して、アスペクト比全体で優れた画像コヒーレンス品質を示しています。
プロジェクトページ:https://elasticdiffusion.github.io/
要約(オリジナル)
Diffusion models have revolutionized image generation in recent years, yet they are still limited to a few sizes and aspect ratios. We propose ElasticDiffusion, a novel training-free decoding method that enables pretrained text-to-image diffusion models to generate images with various sizes. ElasticDiffusion attempts to decouple the generation trajectory of a pretrained model into local and global signals. The local signal controls low-level pixel information and can be estimated on local patches, while the global signal is used to maintain overall structural consistency and is estimated with a reference image. We test our method on CelebA-HQ (faces) and LAION-COCO (objects/indoor/outdoor scenes). Our experiments and qualitative results show superior image coherence quality across aspect ratios compared to MultiDiffusion and the standard decoding strategy of Stable Diffusion. Project page: https://elasticdiffusion.github.io/
arxiv情報
著者 | Moayed Haji-Ali,Guha Balakrishnan,Vicente Ordonez |
発行日 | 2024-03-31 21:11:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google