Simple diffusion: End-to-end diffusion for high resolution images

要約

現在、高解像度画像のピクセル空間に拡散モデルを適用することは困難です。
代わりに、既存のアプローチは、低次元空間での拡散 (潜在拡散) に焦点を当てているか、カスケードと呼ばれる複数の超解像度レベルの生成を備えています。
欠点は、これらのアプローチにより拡散フレームワークがさらに複雑になることです。
この論文は、モデルをできるだけ単純に保ちながら、高解像度画像のノイズ除去拡散を改善することを目的としています。
この論文は、「高解像度画像で標準的なノイズ除去拡散モデルをトレーニングしながら、これらの代替アプローチに匹敵するパフォーマンスを得るにはどうすればよいか」という研究課題を中心にしています。
4 つの主な発見は次のとおりです。1) ノイズ スケジュールは高解像度画像に合わせて調整する必要がある、2) アーキテクチャの特定の部分のみを拡大縮小するだけで十分である、3) ドロップアウトはアーキテクチャ内の特定の場所に追加する必要がある、4)
ダウンサンプリングは、高解像度の特徴マップを回避する効果的な戦略です。
これらのシンプルかつ効果的な手法を組み合わせることで、ImageNet 上でサンプリング修飾子を使用せずに、拡散モデル間の画像生成に関する最先端の技術を実現します。

要約(オリジナル)

Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolution levels of generation referred to as cascades. The downside is that these approaches add additional complexity to the diffusion framework. This paper aims to improve denoising diffusion for high resolution images while keeping the model as simple as possible. The paper is centered around the research question: How can one train a standard denoising diffusion models on high resolution images, and still obtain performance comparable to these alternate approaches? The four main findings are: 1) the noise schedule should be adjusted for high resolution images, 2) It is sufficient to scale only a particular part of the architecture, 3) dropout should be added at specific locations in the architecture, and 4) downsampling is an effective strategy to avoid high resolution feature maps. Combining these simple yet effective techniques, we achieve state-of-the-art on image generation among diffusion models without sampling modifiers on ImageNet.

arxiv情報

著者 Emiel Hoogeboom,Jonathan Heek,Tim Salimans
発行日 2023-12-12 14:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク