simple diffusion: End-to-end diffusion for high resolution images

要約

現在、高解像度画像のピクセル空間に拡散モデルを適用することは困難です。
代わりに、既存のアプローチは、低次元空間での拡散 (潜在拡散) に焦点を当てているか、カスケードと呼ばれる複数の超解像レベルの生成を行っています。
欠点は、これらのアプローチにより、拡散フレームワークがさらに複雑になることです。
この論文は、モデルをできるだけ単純に保ちながら、高解像度画像のノイズ除去拡散を改善することを目的としています。
この論文は研究課題を中心にしています:高解像度画像で標準のノイズ除去拡散モデルをトレーニングし、これらの代替アプローチに匹敵するパフォーマンスを得るにはどうすればよいですか?
4 つの主な調査結果は次のとおりです。1) 高解像度の画像にはノイズ スケジュールを調整する必要がある、2) アーキテクチャの特定の部分のみをスケーリングするだけで十分である、3) アーキテクチャの特定の場所にドロップアウトを追加する必要がある、4)
ダウンサンプリングは、高解像度の特徴マップを回避するための効果的な戦略です。
これらのシンプルかつ効果的な手法を組み合わせることで、ImageNet でモディファイアをサンプリングすることなく、拡散モデル間で最先端の画像生成を実現します。

要約(オリジナル)

Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolution levels of generation referred to as cascades. The downside is that these approaches add additional complexity to the diffusion framework. This paper aims to improve denoising diffusion for high resolution images while keeping the model as simple as possible. The paper is centered around the research question: How can one train a standard denoising diffusion models on high resolution images, and still obtain performance comparable to these alternate approaches? The four main findings are: 1) the noise schedule should be adjusted for high resolution images, 2) It is sufficient to scale only a particular part of the architecture, 3) dropout should be added at specific locations in the architecture, and 4) downsampling is an effective strategy to avoid high resolution feature maps. Combining these simple yet effective techniques, we achieve state-of-the-art on image generation among diffusion models without sampling modifiers on ImageNet.

arxiv情報

著者 Emiel Hoogeboom,Jonathan Heek,Tim Salimans
発行日 2023-01-26 13:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク