Multistep Consistency Models

要約

拡散モデルはトレーニングが比較的簡単ですが、サンプルを生成するには多くの手順が必要です。
一貫性モデルはトレーニングがはるかに困難ですが、サンプルは 1 ステップで生成されます。
この論文では、マルチステップ一貫性モデルを提案します。一貫性モデル (Song et al., 2023) と TRACT (Berthelot et al., 2023) の統合により、一貫性モデルと拡散モデルの間を補間することができます。サンプリング間のトレードオフです。
スピードとサンプリング品質。
具体的には、1 ステップ整合性モデルは従来の整合性モデルであるのに対し、$\infty$ ステップ整合性モデルは拡散モデルです。
マルチステップ整合性モデルは、実際には非常にうまく機能します。
サンプル バジェットを 1 ステップから 2 ~ 8 ステップに増やすことで、サンプリング速度の利点の多くを維持しながら、高品質のサンプルを生成するモデルをより簡単にトレーニングできます。
注目すべき結果は、敵対的トレーニングを行わずに単純な損失を使用した、8 ステップの Imagenet 64 での 1.4 FID と、整合性蒸留を使用した 8 ステップでの Imagenet128 での 2.1 FID です。
また、私たちの方法がテキストから画像への拡散モデルに合わせて拡張され、元のモデルの品質に近いサンプルが生成されることも示します。

要約(オリジナル)

Diffusion models are relatively easy to train but require many steps to generate samples. Consistency models are far more difficult to train, but generate samples in a single step. In this paper we propose Multistep Consistency Models: A unification between Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that can interpolate between a consistency model and a diffusion model: a trade-off between sampling speed and sampling quality. Specifically, a 1-step consistency model is a conventional consistency model whereas a $\infty$-step consistency model is a diffusion model. Multistep Consistency Models work really well in practice. By increasing the sample budget from a single step to 2-8 steps, we can train models more easily that generate higher quality samples, while retaining much of the sampling speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1 FID on Imagenet128 in 8 steps with consistency distillation, using simple losses without adversarial training. We also show that our method scales to a text-to-image diffusion model, generating samples that are close to the quality of the original model.

arxiv情報

著者 Jonathan Heek,Emiel Hoogeboom,Tim Salimans
発行日 2024-11-19 14:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク