Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation

要約

拡散モデルは、特に画像合成の分野で、多様で高品質のコンテンツを生成するための手段として最近認知されてきました。
これらのモデルは、固定サイズの画像の作成だけでなく、パノラマ画像の作成にも優れています。
ただし、既存の方法では、全体的な画像レイアウトのガイダンスが欠如しているため、高解像度のパノラマを作成する際に空間レイアウトの一貫性が確保できないことがよくあります。
このペーパーでは、既存のパノラマ画像生成フレームワークを複数の解像度レベルに拡張するプラグアンドプレイ モジュールであるマルチスケール ディフュージョン (MSD) フレームワークを紹介します。
勾配降下法を利用することで、私たちの方法は低解像度画像の構造情報を高解像度出力に効果的に組み込みます。
提案された方法の包括的な評価が行われ、定性的および定量的な側面で従来の研究と比較されました。
評価結果は、私たちの方法が一貫した高解像度パノラマの生成において他の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Diffusion models have recently gained recognition for generating diverse and high-quality content, especially in the domain of image synthesis. These models excel not only in creating fixed-size images but also in producing panoramic images. However, existing methods often struggle with spatial layout consistency when producing high-resolution panoramas, due to the lack of guidance of the global image layout. In this paper, we introduce the Multi-Scale Diffusion (MSD) framework, a plug-and-play module that extends the existing panoramic image generation framework to multiple resolution levels. By utilizing gradient descent techniques, our method effectively incorporates structural information from low-resolution images into high-resolution outputs. A comprehensive evaluation of the proposed method was conducted, comparing it with the prior works in qualitative and quantitative dimensions. The evaluation results demonstrate that our method significantly outperforms others in generating coherent high-resolution panoramas.

arxiv情報

著者 Xiaoyu Zhang,Teng Zhou,Xinlong Zhang,Jia Wei,Yongchuan Tang
発行日 2024-10-24 15:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク