要約
拡散モデルのサンプリング速度を高速化することは依然として大きな課題です。
最近のスコア抽出手法は、重い教師モデルを 1 ステップの学生ジェネレータに抽出します。この学生ジェネレータは、学生モデルによって生成されたサンプルの 2 つのスコア関数の差を計算することによって最適化されます。
ただし、既存の手法は主に事前トレーニングされた拡散モデルのエンドポイントを教師モデルとして使用することに焦点を当てており、スチューデントジェネレーターと教師の間の収束軌道の重要性を見落としているため、蒸留プロセスの初期段階でスコアの不一致の問題が発生します。
モデル。
この問題に対処するために、教師モデルの収束軌跡全体を導入することでスコア蒸留プロセスを拡張し、生徒ジェネレーターを蒸留するための分布バックトラッキング蒸留 (DisBack) を提案します。
DisBask は、劣化記録と配布バックトラッキングの 2 つのステージで構成されます。
Degradation Recording は、教師モデルの収束軌跡を取得するように設計されており、トレーニングされた教師モデルからトレーニングされていない初期の生徒ジェネレーターまでの劣化パスを記録します。
劣化パスは、教師モデルの中間分布を暗黙的に表します。
次に、分布バックトラッキングは、教師モデルの収束軌道を近似するために中間分布をバックトラックするようにスチューデント ジェネレーターをトレーニングします。
広範な実験により、DisBack は既存の蒸留方法よりも高速かつ優れた収束を実現し、同等の生成パフォーマンスを達成できることが示されています。
特に、DisBack は実装が簡単で、既存の蒸留方法に一般化してパフォーマンスを向上させることができます。
私たちのコードは https://github.com/SYZhang0805/DisBack で公開されています。
要約(オリジナル)
Accelerating the sampling speed of diffusion models remains a significant challenge. Recent score distillation methods distill a heavy teacher model into an one-step student generator, which is optimized by calculating the difference between the two score functions on the samples generated by the student model. However, there is a score mismatch issue in the early stage of the distillation process, because existing methods mainly focus on using the endpoint of pre-trained diffusion models as teacher models, overlooking the importance of the convergence trajectory between the student generator and the teacher model. To address this issue, we extend the score distillation process by introducing the entire convergence trajectory of teacher models and propose Distribution Backtracking Distillation (DisBack) for distilling student generators. DisBask is composed of two stages: Degradation Recording and Distribution Backtracking. Degradation Recording is designed to obtain the convergence trajectory of teacher models, which records the degradation path from the trained teacher model to the untrained initial student generator. The degradation path implicitly represents the intermediate distributions of teacher models. Then Distribution Backtracking trains a student generator to backtrack the intermediate distributions for approximating the convergence trajectory of teacher models. Extensive experiments show that DisBack achieves faster and better convergence than the existing distillation method and accomplishes comparable generation performance. Notably, DisBack is easy to implement and can be generalized to existing distillation methods to boost performance. Our code is publicly available on https://github.com/SYZhang0805/DisBack.
arxiv情報
著者 | Shengyuan Zhang,Ling Yang,Zejian Li,An Zhao,Chenye Meng,Changyuan Yang,Guang Yang,Zhiyuan Yang,Lingyun Sun |
発行日 | 2024-08-28 17:58:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google