Masked Diffusion Models Are Fast and Privacy-Aware Learners

要約

拡散モデルは画像生成のための重要な技術として登場したが、計算オーバーヘッドが大きく、研究コミュニティにおけるこの技術の幅広い応用を妨げている。我々は、拡散モデルの学習プロセスに、事前学習と微調整のパラダイムを組み込んだ初めての、事前学習に基づくノイズ除去学習フレームワークを提案する。本アプローチは、入力画像の高い割合(例えば最大90%)をマスクし、マスクされたノイズ除去スコアマッチングを用いて可視領域をノイズ除去することで、事前知識として学習データからより顕著な特徴を学習するように拡散モデルを導く。事前学習段階でマスク学習を利用することで、CelebA-HQ $256 ⊖times 256$の画素空間でViTベースの拡散モデルを効率的に学習し、ノイズ除去拡散確率モデル(DDPM)と比較して4倍の高速化を達成し、生成画像の品質を向上させました。さらに、マスクされた事前学習技術は、画素空間で直接画像を生成する様々な拡散モデルに汎用的に適用でき、汎化性に優れた事前学習モデルの学習に役立つ。例えば、VGGFace2で事前学習された拡散モデルは、異なる分布からの10%のデータで微調整を行うだけで、46%の品質向上を達成した。さらに、我々の手法は、拡散モデルのプライバシー保護能力を高めるための学習パラダイムとして機能する可能性を示している。私たちのコードは、୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)

要約(オリジナル)

Diffusion models have emerged as the \emph{de-facto} technique for image generation, yet they entail significant computational overhead, hindering the technique’s broader application in the research community. We propose a prior-based denoising training framework, the first to incorporate the pre-train and fine-tune paradigm into the diffusion model training process, which substantially improves training efficiency and shows potential in facilitating various downstream tasks. Our approach centers on masking a high proportion (e.g., up to 90\%) of the input image and employing masked denoising score matching to denoise the visible areas, thereby guiding the diffusion model to learn more salient features from training data as prior knowledge. By utilizing masked learning in a pre-training stage, we efficiently train the ViT-based diffusion model on CelebA-HQ $256 \times 256$ in the pixel space, achieving a 4x acceleration and enhancing the quality of generated images compared to denoising diffusion probabilistic model (DDPM). Moreover, our masked pre-training technique can be universally applied to various diffusion models that directly generate images in the pixel space, aiding in the learning of pre-trained models with superior generalizability. For instance, a diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement through fine-tuning with merely 10\% data from a different distribution. Moreover, our method shows the potential to serve as a training paradigm for enhancing the privacy protection capabilities of diffusion models. Our code is available at \url{https://github.com/jiachenlei/maskdm}.

arxiv情報

著者 Jiachen Lei,Peng Cheng,Zhongjie Ba,Kui Ren
発行日 2023-08-03 16:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク