Multistep Consistency Models

要約

拡散モデルは比較的訓練しやすいが、サンプルを生成するのに多くのステップを必要とする。一貫性モデルは学習がはるかに難しいが、1ステップでサンプルを生成する。 本稿では多段階一貫性モデルを提案する:Consistency Models (Song et al., 2023)とTRACT (Berthelot et al., 2023)を統合したもので、一貫性モデルと拡散モデルの間を補間することができる:サンプリング速度とサンプリング品質のトレードオフ。具体的には、1ステップ一貫性モデルは従来の一貫性モデルであり、$infty$ステップ一貫性モデルは拡散モデルである。 多段階一貫性モデルは、実際には非常にうまく機能する。サンプルバジェットを1ステップから2~8ステップに増やすことで、サンプリング速度の利点の多くを保持しながら、より高品質のサンプルを生成するモデルをより簡単に訓練することができます。注目すべき結果は、8ステップでImagenet 64で1.4 FID、8ステップでImagenet 128で2.1 FIDを達成しました。また、本手法がテキストから画像への拡散モデルに拡張し、元のモデルの品質に近いサンプルを生成することも示す。

要約(オリジナル)

Diffusion models are relatively easy to train but require many steps to generate samples. Consistency models are far more difficult to train, but generate samples in a single step. In this paper we propose Multistep Consistency Models: A unification between Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that can interpolate between a consistency model and a diffusion model: a trade-off between sampling speed and sampling quality. Specifically, a 1-step consistency model is a conventional consistency model whereas a $\infty$-step consistency model is a diffusion model. Multistep Consistency Models work really well in practice. By increasing the sample budget from a single step to 2-8 steps, we can train models more easily that generate higher quality samples, while retaining much of the sampling speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1 FID on Imagenet128 in 8 steps with consistency distillation, using simple losses without adversarial training. We also show that our method scales to a text-to-image diffusion model, generating samples that are close to the quality of the original model.

arxiv情報

著者 Jonathan Heek,Emiel Hoogeboom,Tim Salimans
発行日 2024-06-03 11:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク