要約
拡散モデルは優れた生成品質を実現しますが、ノイズ除去の反復的な性質により生成速度が遅いという問題があります。
対照的に、新しい生成ファミリーである整合性モデルは、大幅に高速なサンプリングで競争力のあるパフォーマンスを実現します。
これらのモデルは、事前トレーニングされた拡散モデルを活用する一貫性蒸留、または生データから直接一貫性トレーニング/チューニングを通じてトレーニングされます。
この研究では、拡散モデルのノイズ除去プロセスをマルコフ決定プロセス (MDP) としてモデル化し、時間差分 (TD) 学習による値推定として一貫性モデルのトレーニングをフレーム化することにより、一貫性モデルを理解するための新しいフレームワークを提案します。
さらに重要なのは、このフレームワークにより、現在の一貫性トレーニング/チューニング戦略の限界を分析できるようになります。
Easy Consistency Tuning (ECT) に基づいて構築され、スコア同一性を使用した分散低減学習を組み込んだ Stable Consistency Tuning (SCT) を提案します。
SCT は、CIFAR-10 や ImageNet-64 などのベンチマークで大幅なパフォーマンスの向上につながります。
ImageNet-64 では、SCT は一貫性モデル用の新しい SoTA である 1 ステップ FID 2.42 および 2 ステップ FID 1.55 を実現します。
要約(オリジナル)
Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through consistency distillation, which leverages pretrained diffusion models, or consistency training/tuning directly from raw data. In this work, we propose a novel framework for understanding consistency models by modeling the denoising process of the diffusion model as a Markov Decision Process (MDP) and framing consistency model training as the value estimation through Temporal Difference~(TD) Learning. More importantly, this framework allows us to analyze the limitations of current consistency training/tuning strategies. Built upon Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT), which incorporates variance-reduced learning using the score identity. SCT leads to significant performance improvements on benchmarks such as CIFAR-10 and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID 1.55, a new SoTA for consistency models.
arxiv情報
著者 | Fu-Yun Wang,Zhengyang Geng,Hongsheng Li |
発行日 | 2024-10-24 17:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google