要約
SinDiffusion を提示し、ノイズ除去拡散モデルを活用して、単一の自然画像からパッチの内部分布をキャプチャします。
SinDiffusion は、既存の GAN ベースのアプローチと比較して、生成されたサンプルの品質と多様性を大幅に改善します。
これは、2 つのコア デザインに基づいています。
まず、SinDiffusion は、以前の作業のデフォルト設定として機能するスケールの漸進的な成長を伴う複数のモデルではなく、単一のスケールで単一のモデルを使用してトレーニングされます。
これにより、生成された結果に特徴的なアーティファクトを引き起こすエラーの蓄積が回避されます。
第二に、拡散ネットワークのパッチレベルの受容野が画像のパッチ統計を取得するために重要かつ効果的であることを確認したため、拡散モデルのネットワーク構造を再設計しました。
この 2 つのデザインを組み合わせることで、1 つの画像からフォトリアリスティックで多様な画像を生成することができます。
さらに、SinDiffusion は、拡散モデルの固有の機能により、さまざまなアプリケーション、つまり、テキスト ガイド付き画像生成、および画像アウトペインティングに適用できます。
広範囲の画像に対する広範な実験により、パッチ分布をモデル化するための提案された方法の優位性が実証されました。
要約(オリジナル)
We present SinDiffusion, leveraging denoising diffusion models to capture internal distribution of patches from a single natural image. SinDiffusion significantly improves the quality and diversity of generated samples compared with existing GAN-based approaches. It is based on two core designs. First, SinDiffusion is trained with a single model at a single scale instead of multiple models with progressive growing of scales which serves as the default setting in prior work. This avoids the accumulation of errors, which cause characteristic artifacts in generated results. Second, we identify that a patch-level receptive field of the diffusion network is crucial and effective for capturing the image’s patch statistics, therefore we redesign the network structure of the diffusion model. Coupling these two designs enables us to generate photorealistic and diverse images from a single image. Furthermore, SinDiffusion can be applied to various applications, i.e., text-guided image generation, and image outpainting, due to the inherent capability of diffusion models. Extensive experiments on a wide range of images demonstrate the superiority of our proposed method for modeling the patch distribution.
arxiv情報
著者 | Weilun Wang,Jianmin Bao,Wengang Zhou,Dongdong Chen,Dong Chen,Lu Yuan,Houqiang Li |
発行日 | 2022-11-22 18:00:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google