DFU: scale-robust diffusion model for zero-shot super-resolution image generation

要約

拡散生成モデルは、固定解像度の画像を生成することに目覚ましい成功を収めています。
ただし、既存のモデルでは、異なる解像度のトレーニング データが利用できない場合、異なる解像度に一般化する能力が限られています。
演算子学習の手法を活用して、複数の解像度で空間情報とスペクトル情報の両方を組み合わせることでスコア演算子を近似する、新しい深層学習アーキテクチャである Dual-FNO UNet (DFU) を紹介します。
DFU とベースラインを比較すると、そのスケーラビリティが実証されます。1) 複数の解像度で同時にトレーニングすると、単一の固定解像度でのトレーニングよりも FID が向上します。
2) DFU はトレーニング解像度を超えて一般化するため、同じモデルを使用した高解像度でのコヒーレントで忠実度の高い生成、つまりゼロショット超解像度画像生成が可能になります。
3) モデルのゼロショット超解像度画像生成機能をさらに強化するための微調整戦略を提案します。これにより、FFHQ での最大トレーニング解像度の 1.66 倍で FID 11.3 が得られます。これは、他の方法では近づけることができません。
達成すること。

要約(オリジナル)

Diffusion generative models have achieved remarkable success in generating images with a fixed resolution. However, existing models have limited ability to generalize to different resolutions when training data at those resolutions are not available. Leveraging techniques from operator learning, we present a novel deep-learning architecture, Dual-FNO UNet (DFU), which approximates the score operator by combining both spatial and spectral information at multiple resolutions. Comparisons of DFU to baselines demonstrate its scalability: 1) simultaneously training on multiple resolutions improves FID over training at any single fixed resolution; 2) DFU generalizes beyond its training resolutions, allowing for coherent, high-fidelity generation at higher-resolutions with the same model, i.e. zero-shot super-resolution image-generation; 3) we propose a fine-tuning strategy to further enhance the zero-shot super-resolution image-generation capability of our model, leading to a FID of 11.3 at 1.66 times the maximum training resolution on FFHQ, which no other method can come close to achieving.

arxiv情報

著者 Alex Havrilla,Kevin Rojas,Wenjing Liao,Molei Tao
発行日 2024-01-22 17:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク