Ultra-High-Resolution Image Synthesis with Pyramid Diffusion Model

要約

超高解像度画像合成用に設計された新しいアーキテクチャであるピラミッド拡散モデル (PDM) を紹介します。
PDM はピラミッド潜在表現を利用し、より柔軟で構造化された効率的な知覚圧縮を可能にするより広い設計空間を提供し、AutoEncoder と拡散ネットワークがブランチとより深い層を装備できるようにします。
生成タスクに対する PDM の機能を強化するために、拡散ネットワークと AutoEncoder に対するスペクトル ノルムと減少ドロップアウト戦略の利用に加えて、空間チャネル アテンションとレススキップ接続の統合を提案します。
要約すると、PDM は初めて 2K 解像度の画像の合成を実現し、それぞれサイズ 2048×2048 ピクセルと 2048×1024 ピクセルの画像を含む 2 つの新しいデータセットで実証されました。
私たちは、この研究が、スケーラブルな画像生成モデルを設計するための代替アプローチを提供するとともに、既存のフレームワークを段階的に強化するものであると信じています。

要約(オリジナル)

We introduce the Pyramid Diffusion Model (PDM), a novel architecture designed for ultra-high-resolution image synthesis. PDM utilizes a pyramid latent representation, providing a broader design space that enables more flexible, structured, and efficient perceptual compression which enable AutoEncoder and Network of Diffusion to equip branches and deeper layers. To enhance PDM’s capabilities for generative tasks, we propose the integration of Spatial-Channel Attention and Res-Skip Connection, along with the utilization of Spectral Norm and Decreasing Dropout Strategy for the Diffusion Network and AutoEncoder. In summary, PDM achieves the synthesis of images with a 2K resolution for the first time, demonstrated on two new datasets comprising images of sizes 2048×2048 pixels and 2048×1024 pixels respectively. We believe that this work offers an alternative approach to designing scalable image generative models, while also providing incremental reinforcement for existing frameworks.

arxiv情報

著者 Jiajie Yang
発行日 2024-03-19 17:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク