Masked Diffusion Models Are Fast Distribution Learners

要約

拡散モデルは、画像合成の \emph{事実上の}生成モデルとして登場しましたが、トレーニングに多大なオーバーヘッドがかかるため、研究コミュニティでのこの技術の広範な採用が妨げられています。
これらのモデルは一般に、すべてのきめの細かい視覚情報を最初から学習するようにトレーニングされていることが観察されており、そのため、その必要性についての調査が動機付けられています。
この研究では、未知の実画像分布のプライマー分布を学習するよう奨励することで拡散モデルを初期化するための事前トレーニング段階を設定するだけで十分であることを示します。
その後、事前トレーニングされたモデルを特定の生成タスクに合わせて効率的に微調整できます。
プライマー分布を近似するために、私たちのアプローチは、入力画像の高い割合 (たとえば、最大 90%) をマスクし、マスクされたノイズ除去スコア マッチングを採用して可視領域のノイズを除去することに重点を置いています。
後続の微調整で学習したプライマー分布を利用して、生のピクセル空間で CelebA-HQ $256 \times 256$ で ViT ベースの拡散モデルを効率的にトレーニングし、対応するノイズ除去拡散確率モデル (DDPM) と比較して優れたトレーニング加速を実現します。
ViT ベースの拡散モデルの新しい FID スコア記録は 6.73 です。
さらに、私たちのマスクされた事前トレーニング技術は、ピクセル空間に画像を直接生成するさまざまな拡散モデルに汎用的に適用でき、優れた一般化性を備えた事前トレーニングされたモデルの学習を支援します。
たとえば、VGGFace2 で事前トレーニングされた拡散モデルは、別のデータセットからのわずか 10\% のデータを微調整することで 46\% の品質向上を達成します。
私たちのコードは \url{https://github.com/jiachenlei/maskdm} で入手できます。

要約(オリジナル)

Diffusion models have emerged as the \emph{de-facto} generative model for image synthesis, yet they entail significant training overhead, hindering the technique’s broader adoption in the research community. We observe that these models are commonly trained to learn all fine-grained visual information from scratch, thus motivating our investigation on its necessity. In this work, we show that it suffices to set up pre-training stage to initialize a diffusion model by encouraging it to learn some primer distribution of the unknown real image distribution. Then the pre-trained model can be fine-tuned for specific generation tasks efficiently. To approximate the primer distribution, our approach centers on masking a high proportion (e.g., up to 90\%) of an input image and employing masked denoising score matching to denoise visible areas. Utilizing the learned primer distribution in subsequent fine-tuning, we efficiently train a ViT-based diffusion model on CelebA-HQ $256 \times 256$ in the raw pixel space, achieving superior training acceleration compared to denoising diffusion probabilistic model (DDPM) counterpart and a new FID score record of 6.73 for ViT-based diffusion models. Moreover, our masked pre-training technique can be universally applied to various diffusion models that directly generate images in the pixel space, aiding in the learning of pre-trained models with superior generalizability. For instance, a diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement through fine-tuning on only 10\% data from a different dataset. Our code is available at \url{https://github.com/jiachenlei/maskdm}.

arxiv情報

著者 Jiachen Lei,Qinglong Wang,Peng Cheng,Zhongjie Ba,Zhan Qin,Zhibo Wang,Zhenguang Liu,Kui Ren
発行日 2023-10-06 08:06:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク