Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models

要約

タイトル:Patch Diffusion:Diffusionモデルのより高速かつデータ効率的なトレーニング

要約:

– Diffusionモデルは強力ですが、トレーニングには多くの時間とデータが必要です。
– 我々は、ジェネラルなパッチ単位のトレーニングフレームワーク、Patch Diffusionを提案しています。
– この方法により、トレーニング時間のコストを大幅に削減し、データの効率性を向上させることができます。これにより、Diffusionモデルのトレーニングを幅広いユーザー層に開放できます。
– 主なイノベーションのコアは、パッチレベルでの新しい条件付きスコア関数です。
– この方法により、私たちは2倍以上の高速なトレーニングを実現し、同等またはより優れた生成品質を維持できます。
– また、比較的小さなデータセット(5,000枚の画像)からのscratchトレーニングでも、性能が改善されます。
– 我々は、CelebA-64×64で1.77、AFHQv2-Wild-64×64で1.93の最新のFIDスコアを実現しました。
– 我々は、私たちのコードと事前トレーニングモデルをすぐに共有する予定です。

要約(オリジナル)

Diffusion models are powerful, but they require a lot of time and data to train. We propose Patch Diffusion, a generic patch-wise training framework, to significantly reduce the training time costs while improving data efficiency, which thus helps democratize diffusion model training to broader users. At the core of our innovations is a new conditional score function at the patch level, where the patch location in the original image is included as additional coordinate channels, while the patch size is randomized and diversified throughout training to encode the cross-region dependency at multiple scales. Sampling with our method is as easy as in the original diffusion model. Through Patch Diffusion, we could achieve $\mathbf{\ge 2\times}$ faster training, while maintaining comparable or better generation quality. Patch Diffusion meanwhile improves the performance of diffusion models trained on relatively small datasets, $e.g.$, as few as 5,000 images to train from scratch. We achieve state-of-the-art FID scores 1.77 on CelebA-64$\times$64 and 1.93 on AFHQv2-Wild-64$\times$64. We will share our code and pre-trained models soon.

arxiv情報

著者 Zhendong Wang,Yifan Jiang,Huangjie Zheng,Peihao Wang,Pengcheng He,Zhangyang Wang,Weizhu Chen,Mingyuan Zhou
発行日 2023-04-25 02:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク