DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance

要約

最近の大規模生成モデルの急増により、コンピューター ビジョンの広大な分野の発展が促進されています。
特に、テキストから画像への拡散モデルは、高忠実度の画像生成の可能性があるため、さまざまな分野で広く採用されています。
それにもかかわらず、既存の大規模拡散モデルは最大 1K 解像度の画像を生成することに限定されており、現代の商用アプリケーションの需要を満たすには程遠いです。
高解像度の画像を直接サンプリングすると、オブジェクトの繰り返しや歪んだ形状などのアーチファクトによって損なわれた結果が得られることがよくあります。
前述の問題に対処するには、通常、より高解像度のデータセットでモデルをトレーニングまたは微調整する必要があります。
しかし、大規模な高解像度コンテンツと膨大な計算リソースを収集することが難しいため、この取り組みは大きな課題となります。
これまでにいくつかの研究で代替案が提案されてきましたが、説得力のある結果が得られないことがよくあります。
この研究では、元の能力を超えた高解像度での拡散モデルの生成能力を調査し、生成された低解像度画像を最大限に活用して高解像度画像の生成を導く新しい進歩的なアプローチを提案します。
私たちの方法では、追加のトレーニングや微調整の必要性がなくなり、計算コストの負担が大幅に軽減されます。
広範な実験と結果により、私たちの方法の効率と有効性が検証されています。
プロジェクトページ:https://yhyun225.github.io/DiffuseHigh/

要約(オリジナル)

Recent surge in large-scale generative models has spurred the development of vast fields in computer vision. In particular, text-to-image diffusion models have garnered widespread adoption across diverse domain due to their potential for high-fidelity image generation. Nonetheless, existing large-scale diffusion models are confined to generate images of up to 1K resolution, which is far from meeting the demands of contemporary commercial applications. Directly sampling higher-resolution images often yields results marred by artifacts such as object repetition and distorted shapes. Addressing the aforementioned issues typically necessitates training or fine-tuning models on higher resolution datasets. However, this undertaking poses a formidable challenge due to the difficulty in collecting large-scale high-resolution contents and substantial computational resources. While several preceding works have proposed alternatives, they often fail to produce convincing results. In this work, we probe the generative ability of diffusion models at higher resolution beyond its original capability and propose a novel progressive approach that fully utilizes generated low-resolution image to guide the generation of higher resolution image. Our method obviates the need for additional training or fine-tuning which significantly lowers the burden of computational costs. Extensive experiments and results validate the efficiency and efficacy of our method. Project page: https://yhyun225.github.io/DiffuseHigh/

arxiv情報

著者 Younghyun Kim,Geunmin Hwang,Junyu Zhang,Eunbyung Park
発行日 2024-07-11 15:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク