要約
拡散モデル (DM) は、さまざまな分野で優れた生成機能を実証していますが、展開中の推論速度の遅さと高い計算要求によって妨げられています。
DM を高速化する最も一般的な方法には、生成中のノイズ除去ステップの数を減らすことが含まれます。これは、より高速なサンプリング ソルバーまたは知識蒸留 (KD) によって実現されます。
従来のアプローチとは対照的に、大規模な事前トレーニング済み DM の機能をより高速なアーキテクチャに移行する新しい方法を提案します。
具体的には、KD を独自の方法で採用し、DM の生成能力をより高速なバリアントに抽出することで DM を圧縮します。
さらに、ソース データがアクセスできないか、現在の生成モデルに保存するには膨大すぎることを考慮して、拡散モデルのためのデータフリー知識蒸留 (DKDM) と呼ばれる、ソース データなしで蒸留するための新しいパラダイムを導入します。
一般に、私たちが確立した DKDM フレームワークは 2 つの主要コンポーネントで構成されます。1) 事前トレーニングされた DM によって生成された合成ノイズ除去データを使用して、ソース データなしでより高速な DM を最適化する DKDM 目標、および 2) ノイズ除去データの合成を柔軟に組織化する動的反復蒸留手法。
生成が遅いために最適化プロセスが遅くなるのを防ぎます。
私たちの知る限り、これは KD を使用して、データを使用せずに DM を任意のアーキテクチャに抽出する最初の試みです。
重要なのは、私たちの DKDM は、ノイズ除去ステップ削減、量子化、枝刈りなど、ほとんどの既存の高速化手法と直交していることです。
実験の結果、DKDM はベースラインと同等のパフォーマンスを維持しながら 2 倍高速な DM を導出できることがわかりました。
特に、DKDM により、事前トレーニングされた DM が新しい DM をトレーニングするための「データセット」として機能できるようになります。
要約(オリジナル)
Diffusion models (DMs) have demonstrated exceptional generative capabilities across various areas, while they are hindered by slow inference speeds and high computational demands during deployment. The most common way to accelerate DMs involves reducing the number of denoising steps during generation, achieved through faster sampling solvers or knowledge distillation (KD). In contrast to prior approaches, we propose a novel method that transfers the capability of large pretrained DMs to faster architectures. Specifically, we employ KD in a distinct manner to compress DMs by distilling their generative ability into more rapid variants. Furthermore, considering that the source data is either unaccessible or too enormous to store for current generative models, we introduce a new paradigm for their distillation without source data, termed Data-Free Knowledge Distillation for Diffusion Models (DKDM). Generally, our established DKDM framework comprises two main components: 1) a DKDM objective that uses synthetic denoising data produced by pretrained DMs to optimize faster DMs without source data, and 2) a dynamic iterative distillation method that flexibly organizes the synthesis of denoising data, preventing it from slowing down the optimization process as the generation is slow. To our knowledge, this is the first attempt at using KD to distill DMs into any architecture in a data-free manner. Importantly, our DKDM is orthogonal to most existing acceleration methods, such as denoising step reduction, quantization and pruning. Experiments show that our DKDM is capable of deriving 2x faster DMs with performance remaining on par with the baseline. Notably, our DKDM enables pretrained DMs to function as ‘datasets’ for training new DMs.
arxiv情報
著者 | Qianlong Xiang,Miao Zhang,Yuzhang Shang,Jianlong Wu,Yan Yan,Liqiang Nie |
発行日 | 2024-09-05 14:12:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google