ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

要約

この研究では、トレーニング済みの拡散モデルからトレーニング画像サイズよりもはるかに高い解像度で画像を生成する機能を調査します。
さらに、生成された画像は任意の画像アスペクト比を持つ必要があります。
解像度 512 x 512 のトレーニング画像を使用して事前トレーニングされた安定拡散を使用して、より高解像度の 1024 x 1024 で画像を直接生成すると、オブジェクトの繰り返しと不合理なオブジェクト構造という永続的な問題が観察されます。
注意ベースのアプローチや共同拡散アプローチなど、高解像度の生成を目的とした既存の取り組みでは、これらの問題に十分に対処できません。
新しい視点として、拡散モデルにおける U-Net の構造コンポーネントを調査し、畳み込みカーネルの限られた知覚フィールドとして決定的な原因を特定します。
この重要な観察に基づいて、推論中に畳み込み知覚フィールドを動的に調整できる、シンプルかつ効果的な再拡張を提案します。
我々はさらに、超高解像度画像生成 (例: 4096 x 4096) を可能にする分散畳み込みおよびノイズ減衰分類器を使用しないガイダンスを提案します。
特に、私たちのアプローチはトレーニングや最適化を必要としません。
広範な実験により、私たちのアプローチが繰り返しの問題にうまく対処し、高解像度の画像合成、特にテクスチャの詳細において最先端のパフォーマンスを達成できることが実証されました。
私たちの研究は、低解像度画像でトレーニングされた事前トレーニング済み拡散モデルが、さらなる調整なしで高解像度ビジュアル生成に直接使用できることも示唆しており、これは超高解像度画像およびビデオ合成に関する将来の研究に洞察を提供する可能性があります。

要約(オリジナル)

In this work, we investigate the capability of generating images from pre-trained diffusion models at much higher resolutions than the training image sizes. In addition, the generated images should have arbitrary image aspect ratios. When generating images directly at a higher resolution, 1024 x 1024, with the pre-trained Stable Diffusion using training images of resolution 512 x 512, we observe persistent problems of object repetition and unreasonable object structures. Existing works for higher-resolution generation, such as attention-based and joint-diffusion approaches, cannot well address these issues. As a new perspective, we examine the structural components of the U-Net in diffusion models and identify the crucial cause as the limited perception field of convolutional kernels. Based on this key observation, we propose a simple yet effective re-dilation that can dynamically adjust the convolutional perception field during inference. We further propose the dispersed convolution and noise-damped classifier-free guidance, which can enable ultra-high-resolution image generation (e.g., 4096 x 4096). Notably, our approach does not require any training or optimization. Extensive experiments demonstrate that our approach can address the repetition issue well and achieve state-of-the-art performance on higher-resolution image synthesis, especially in texture details. Our work also suggests that a pre-trained diffusion model trained on low-resolution images can be directly used for high-resolution visual generation without further tuning, which may provide insights for future research on ultra-high-resolution image and video synthesis.

arxiv情報

著者 Yingqing He,Shaoshu Yang,Haoxin Chen,Xiaodong Cun,Menghan Xia,Yong Zhang,Xintao Wang,Ran He,Qifeng Chen,Ying Shan
発行日 2023-10-11 17:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク