Creatively Upscaling Images with Global-Regional Priors

要約

現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示していますが、制限された解像度に限定されています(例:1,024 x 1,024)。
最近の進歩により、事前に訓練された拡散モデルをリサイクルし、地域の除去または拡張サンプリング/畳み込みを介してそれらを拡張することにより、チューニングのない高解像度の画像生成が可能になります。
ただし、これらのモデルは、グローバルなセマンティック構造を同時に保存し、高解像度画像で創造的な地域の詳細を生成するのに苦労しています。
これに対処するために、Multimodal LLMを介したグローバルプロンプトと推定地域プロンプトから派生したグローバル地域のプライアーにピボットをアップスケーリングするチューニングフリーの画像の新しいレシピであるCupscaleを提示します。
技術的には、低解像度画像の低周波成分は、高解像度の生成におけるグローバルなセマンティックの一貫性を促進する前に、グローバル構造として認識されます。
次に、地域の注意制御を実行して、地域の除去中にグローバルプロンプトと各地域の間の交差に関する反対をスクリーニングし、オブジェクトの繰り返しの問題を軽減する地域の注意を引き起こします。
豊富な記述の詳細を含む推定地域プロンプトは、地域の詳細生成の創造性を促進する前に、さらに地域の意味として機能します。
定量的評価と定性的評価の両方が、私たちのCUpscaleが超高解像度の画像を生成していることを示しています(例:4,096 x 4,096および8,192 x 8,192)。

要約(オリジナル)

Contemporary diffusion models show remarkable capability in text-to-image generation, while still being limited to restricted resolutions (e.g., 1,024 X 1,024). Recent advances enable tuning-free higher-resolution image generation by recycling pre-trained diffusion models and extending them via regional denoising or dilated sampling/convolutions. However, these models struggle to simultaneously preserve global semantic structure and produce creative regional details in higher-resolution images. To address this, we present C-Upscale, a new recipe of tuning-free image upscaling that pivots on global-regional priors derived from given global prompt and estimated regional prompts via Multimodal LLM. Technically, the low-frequency component of low-resolution image is recognized as global structure prior to encourage global semantic consistency in high-resolution generation. Next, we perform regional attention control to screen cross-attention between global prompt and each region during regional denoising, leading to regional attention prior that alleviates object repetition issue. The estimated regional prompts containing rich descriptive details further act as regional semantic prior to fuel the creativity of regional detail generation. Both quantitative and qualitative evaluations demonstrate that our C-Upscale manages to generate ultra-high-resolution images (e.g., 4,096 X 4,096 and 8,192 X 8,192) with higher visual fidelity and more creative regional details.

arxiv情報

著者 Yurui Qian,Qi Cai,Yingwei Pan,Ting Yao,Tao Mei
発行日 2025-05-22 17:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク