Masked Diffusion Models are Fast Learners

要約

拡散モデルは、画像生成の事実上の技術として登場しましたが、かなりの計算オーバーヘッドを伴うため、研究コミュニティにおけるこの技術の広範な応用の妨げとなっています。
我々は事前ベースのノイズ除去トレーニング フレームワークを提案します。これは事前トレーニングと微調整パラダイムを拡散モデルのトレーニング プロセスに初めて組み込んだもので、これによりトレーニング効率が大幅に向上し、さまざまな下流タスクを容易にする可能性が示されます。
私たちのアプローチは、入力画像の大部分 (たとえば、最大 90%) をマスクし、マスクされたスコア マッチングを使用して可視領域のノイズを除去することに重点を置いています。これにより、拡散モデルが事前知識としてトレーニング データからより顕著な特徴を学習するように導きます。
このマスクされた学習プロセスを事前トレーニング段階で利用することで、ピクセル空間の CelebA-HQ 256×256 上で ViT ベースの拡散モデルを効率的にトレーニングし、DDPM と比較して 4 倍の高速化を達成し、生成される画像の品質を向上させます。
さらに、私たちのマスクされた事前トレーニング技術は、ピクセル空間で画像を直接生成するさまざまな拡散モデルに普遍的に適用でき、優れた一般化性で事前トレーニングされたモデルの学習を容易にします。VGGFace2 で事前トレーニングされた拡散モデルは、微細な処理により 46% の品質向上を達成します。
-わずか 10% のローカル データを使用したチューニング。
私たちのコードは https://github.com/jiachenlei/maskdm で入手できます。

要約(オリジナル)

Diffusion models have emerged as the de-facto technique for image generation, yet they entail significant computational overhead, hindering the technique’s broader application in the research community. We propose a prior-based denoising training framework, the first to incorporate the pre-train and fine-tune paradigm into the diffusion model training process, which substantially improves training efficiency and shows potential in facilitating various downstream tasks. Our approach centers on masking a high proportion (e.g., up to 90%) of the input image and employing masked score matching to denoise the visible areas, thereby guiding the diffusion model to learn more salient features from training data as prior knowledge. By utilizing this masked learning process in a pre-training stage, we efficiently train the ViT-based diffusion model on CelebA-HQ 256×256 in the pixel space, achieving a 4x acceleration and enhancing the quality of generated images compared to DDPM. Moreover, our masked pre-training technique is universally applicable to various diffusion models that directly generate images in the pixel space and facilitates learning pre-trained models with excellent generalizability: a diffusion model pre-trained on VGGFace2 attains a 46% quality improvement through fine-tuning with merely 10% local data. Our code is available at https://github.com/jiachenlei/maskdm.

arxiv情報

著者 Jiachen Lei,Peng Cheng,Zhongjie Ba,Kui Ren
発行日 2023-06-20 08:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク