要約
拡散モデルとフローマッチングは、高品質のサンプルを生成しますが、推論では遅くなり、それらを少数のモデルに蒸留することは、しばしば不安定性と広範なチューニングにつながります。
これらのトレードオフを解決するために、単一段階のトレーニング手順を備えた1つまたは少数のサンプリングのための新しいクラスの生成モデルである帰納的モーメントマッチング(IMM)を提案します。
蒸留とは異なり、IMMは2つのネットワークのトレーニング前の初期化と最適化を必要としません。
また、一貫性モデルとは異なり、IMMは分布レベルの収束を保証し、さまざまなハイパーパラメーターと標準モデルアーキテクチャの下で安定したままです。
IMMは、8つの推論ステップのみを使用して1.99 FIDでImagenet-256×256で拡散モデルを上回り、ゼロからトレーニングされたモデルのCIFAR-10で最先端の2ステップFIDをCIFAR-10で達成します。
要約(オリジナル)
Diffusion models and Flow Matching generate high-quality samples but are slow at inference, and distilling them into few-step models often leads to instability and extensive tuning. To resolve these trade-offs, we propose Inductive Moment Matching (IMM), a new class of generative models for one- or few-step sampling with a single-stage training procedure. Unlike distillation, IMM does not require pre-training initialization and optimization of two networks; and unlike Consistency Models, IMM guarantees distribution-level convergence and remains stable under various hyperparameters and standard model architectures. IMM surpasses diffusion models on ImageNet-256×256 with 1.99 FID using only 8 inference steps and achieves state-of-the-art 2-step FID of 1.98 on CIFAR-10 for a model trained from scratch.
arxiv情報
著者 | Linqi Zhou,Stefano Ermon,Jiaming Song |
発行日 | 2025-03-10 17:37:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google