Consistency Models Made Easy

要約

整合性モデル (CM) は、従来の拡散モデルよりも高速なサンプリングを提供する生成モデルの新しいクラスです。
CM は、サンプリング軌跡に沿ったすべての点が同じ初期点にマッピングされることを強制します。
しかし、この目標はリソースを大量に消費するトレーニングにつながります。たとえば、2024 年の時点で、CIFAR-10 での SoTA CM のトレーニングには 8 つの GPU で 1 週間かかります。
この研究では、CM をトレーニングするための代替スキームを提案し、そのようなモデルの構築効率を大幅に向上させます。
具体的には、特定の微分方程式を介して CM の軌跡を表現することにより、拡散モデルを特定の離散化を備えた CM の特殊なケースとみなすことができると主張します。
したがって、事前にトレーニングされた拡散モデルから開始して一貫性モデルを微調整し、トレーニング プロセスを通じて完全な一貫性条件を段階的により強力に近似することができます。
Easy Consistency Tuning (ECT) と呼ばれるこの手法は、以前の手法の品質を向上させながらトレーニング時間を大幅に改善します。たとえば、ECT は、単一の A100 で 1 時間以内に CIFAR10 で 2 ステップ FID 2.73 を達成します。
GPU、数百時間の GPU 時間でトレーニングされた一貫性蒸留に一致します。
この計算効率のおかげで、ECT の下で CM のスケーリング則を調査すると、CM が古典的なべき乗則スケーリングに従っているように見えることが示され、大規模なスケールで効率とパフォーマンスを向上させる能力が示唆されています。
コード (https://github.com/locuslab/ect) が利用可能です。

要約(オリジナル)

Consistency models (CMs) are an emerging class of generative models that offer faster sampling than traditional diffusion models. CMs enforce that all points along a sampling trajectory are mapped to the same initial point. But this target leads to resource-intensive training: for example, as of 2024, training a SoTA CM on CIFAR-10 takes one week on 8 GPUs. In this work, we propose an alternative scheme for training CMs, vastly improving the efficiency of building such models. Specifically, by expressing CM trajectories via a particular differential equation, we argue that diffusion models can be viewed as a special case of CMs with a specific discretization. We can thus fine-tune a consistency model starting from a pre-trained diffusion model and progressively approximate the full consistency condition to stronger degrees over the training process. Our resulting method, which we term Easy Consistency Tuning (ECT), achieves vastly improved training times while indeed improving upon the quality of previous methods: for example, ECT achieves a 2-step FID of 2.73 on CIFAR10 within 1 hour on a single A100 GPU, matching Consistency Distillation trained of hundreds of GPU hours. Owing to this computational efficiency, we investigate the scaling law of CMs under ECT, showing that they seem to obey classic power law scaling, hinting at their ability to improve efficiency and performance at larger scales. Code (https://github.com/locuslab/ect) is available.

arxiv情報

著者 Zhengyang Geng,Ashwini Pokle,William Luo,Justin Lin,J. Zico Kolter
発行日 2024-06-20 17:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク