要約
ワンステップ生成モデルにおける最近の進歩は、通常2段階のプロセスに従っている:まず教師拡散モデルを学習し、次にそれをワンステップの生徒モデルに蒸留する。この蒸留プロセスは従来、蒸留損失を計算するための教師モデルのスコア関数と、生徒の初期化のための重みの両方に依存していた。本論文では、この蒸留プロセスなしに、1ステップ生成モデルを直接学習できるかどうかを探索する。まず、教師のスコア関数は必須ではないことを示し、スコア推定に頼らずに競争力のある結果を得る蒸留法のファミリーを提案する。次に、教師重みからの初期化が学習の成功に不可欠であることを示す。驚くべきことに、この利点は“入出力”マッピングの改善によるものではなく、むしろ学習された特徴表現によるものであり、これが蒸留の質を支配していることを発見した。我々の発見は、ワンステップモデル学習における初期化の役割と、それが蒸留品質に与える影響についての理解を深めるものである。
要約(オリジナル)
Recent advances in one-step generative models typically follow a two-stage process: first training a teacher diffusion model and then distilling it into a one-step student model. This distillation process traditionally relies on both the teacher model’s score function to compute the distillation loss and its weights for student initialization. In this paper, we explore whether one-step generative models can be trained directly without this distillation process. First, we show that the teacher’s score function is not essential and propose a family of distillation methods that achieve competitive results without relying on score estimation. Next, we demonstrate that initialization from teacher weights is indispensable in successful training. Surprisingly, we find that this benefit is not due to improved “input-output’ mapping but rather the learned feature representations, which dominate distillation quality. Our findings provide a better understanding of the role of initialization in one-step model training and its impact on distillation quality.
arxiv情報
著者 | Mingtian Zhang,Jiajun He,Wenlin Chen,Zijing Ou,José Miguel Hernández-Lobato,Bernhard Schölkopf,David Barber |
発行日 | 2025-03-03 10:38:34+00:00 |
arxivサイト | arxiv_id(pdf) |