Matryoshka Diffusion Models

要約

拡散モデルは、高品質の画像やビデオを生成するための事実上のアプローチですが、計算と最適化の課題により、高次元モデルの学習は依然として困難な作業です。
既存の方法では、多くの場合、ピクセル空間でカスケード モデルをトレーニングするか、個別にトレーニングされた自動エンコーダーのダウンサンプリングされた潜在空間を使用します。
この論文では、高解像度の画像とビデオを合成するためのエンドツーエンドのフレームワークである Matryoshka Diffusion Models (MDM) を紹介します。
我々は、複数の解像度で入力のノイズを共同で除去し、小規模な入力の特徴とパラメータが大規模な入力の特徴とパラメータ内にネストされる NestedUNet アーキテクチャを使用する拡散プロセスを提案します。
さらに、MDM により、低解像度から高解像度への段階的なトレーニング スケジュールが可能になり、高解像度生成の最適化が大幅に向上します。
クラス条件付き画像生成、高解像度のテキストから画像へのアプリケーション、テキストからビデオへのアプリケーションなど、さまざまなベンチマークでアプローチの有効性を実証します。
注目すべきことに、単一ピクセル空間モデルを最大 1024×1024 ピクセルの解像度でトレーニングでき、わずか 1,200 万枚の画像を含む CC12M データセットを使用した強力なゼロショット一般化を実証できます。

要約(オリジナル)

Diffusion models are the de facto approach for generating high-quality images and videos, but learning high-dimensional models remains a formidable task due to computational and optimization challenges. Existing methods often resort to training cascaded models in pixel space or using a downsampled latent space of a separately trained auto-encoder. In this paper, we introduce Matryoshka Diffusion Models(MDM), an end-to-end framework for high-resolution image and video synthesis. We propose a diffusion process that denoises inputs at multiple resolutions jointly and uses a NestedUNet architecture where features and parameters for small-scale inputs are nested within those of large scales. In addition, MDM enables a progressive training schedule from lower to higher resolutions, which leads to significant improvements in optimization for high-resolution generation. We demonstrate the effectiveness of our approach on various benchmarks, including class-conditioned image generation, high-resolution text-to-image, and text-to-video applications. Remarkably, we can train a single pixel-space model at resolutions of up to 1024×1024 pixels, demonstrating strong zero-shot generalization using the CC12M dataset, which contains only 12 million images.

arxiv情報

著者 Jiatao Gu,Shuangfei Zhai,Yizhe Zhang,Josh Susskind,Navdeep Jaitly
発行日 2023-10-23 17:20:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク