Patched Denoising Diffusion Models For High-Resolution Image Synthesis

要約

我々は、小さなサイズの画像パッチ (例: 64$\times$64) でトレーニングされた、高解像度画像 (例: 1024$\times$512) を生成するための効果的なノイズ除去拡散モデルを提案します。
私たちはこのアルゴリズムを Patch-DM と名付けました。このアルゴリズムでは、新しい特徴コラージュ戦略が、大きなサイズの画像を合成する際の境界アーティファクトを回避するように設計されています。
フィーチャ コラージュは、隣接するパッチの部分的なフィーチャを系統的に切り取って組み合わせて、シフトされたイメージ パッチのフィーチャを予測します。これにより、パッチ フィーチャ空間の重複により画像全体をシームレスに生成できます。
Patch-DM は、新しく収集された自然画像のデータセット (1024$\times$512) だけでなく、LSUN-Bedroom、LSUN- などの小さいサイズの標準ベンチマーク (256$\times$256) で高品質の画像合成結果を生成します。
教会とFF本部。
私たちの方法を以前のパッチベースの生成方法と比較し、4 つのデータセットすべてで最先端の FID スコアを達成しました。
さらに、Patch-DM は、従来の拡散モデルと比較してメモリの複雑性も軽減します。

要約(オリジナル)

We propose an effective denoising diffusion model for generating high-resolution images (e.g., 1024$\times$512), trained on small-size image patches (e.g., 64$\times$64). We name our algorithm Patch-DM, in which a new feature collage strategy is designed to avoid the boundary artifact when synthesizing large-size images. Feature collage systematically crops and combines partial features of the neighboring patches to predict the features of a shifted image patch, allowing the seamless generation of the entire image due to the overlap in the patch feature space. Patch-DM produces high-quality image synthesis results on our newly collected dataset of nature images (1024$\times$512), as well as on standard benchmarks of smaller sizes (256$\times$256), including LSUN-Bedroom, LSUN-Church, and FFHQ. We compare our method with previous patch-based generation methods and achieve state-of-the-art FID scores on all four datasets. Further, Patch-DM also reduces memory complexity compared to the classic diffusion models.

arxiv情報

著者 Zheng Ding,Mengqi Zhang,Jiajun Wu,Zhuowen Tu
発行日 2023-08-02 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク