Q-Diffusion: Quantizing Diffusion Models

要約

拡散モデルは、多様で忠実度の高い画像の合成に大きな成功を収めています。
ただし、サンプリング速度とメモリの制約は、拡散モデルの実際の採用に対する主要な障壁のままです。これらのモデルの生成プロセスは、計算集約型のニューラル ネットワークを使用した反復ノイズ推定の必要性により遅くなる可能性があるためです。
ノイズ推定ネットワークを圧縮して、トレーニング後の量子化 (PTQ) による生成プロセスを加速することで、この問題に取り組むことを提案します。
既存の PTQ アプローチは、複数の時間ステップにわたる拡散モデルのノイズ推定ネットワークの変化する出力分布を効果的に処理できませんでしたが、拡散のユニークな複数時間ステップ構造を処理するように特別に設計された PTQ メソッドを定式化することができます。
異なる時間ステップからサンプリングされたデータを使用するデータ キャリブレーション スキームを使用したモデル。
実験結果は、提案された方法が完全精度の拡散モデルを 8 ビットまたは 4 ビットのモデルに直接量子化できることを示していますが、トレーニングなしで同等のパフォーマンスを維持し、最大で 1.88 の FID 変化を達成しています。
私たちのアプローチは、テキスト ガイド付きの画像生成にも適用できます。図 5 と図 9 に示すように、初めて、知覚品質をあまり失うことなく、4 ビットの重みで安定した拡散を実行できます。

要約(オリジナル)

Diffusion models have achieved great success in synthesizing diverse and high-fidelity images. However, sampling speed and memory constraints remain a major barrier to the practical adoption of diffusion models, since the generation process for these models can be slow due to the need for iterative noise estimation using compute-intensive neural networks. We propose to tackle this problem by compressing the noise estimation network to accelerate the generation process through post-training quantization (PTQ). While existing PTQ approaches have not been able to effectively deal with the changing output distributions of noise estimation networks in diffusion models over multiple time steps, we are able to formulate a PTQ method that is specifically designed to handle the unique multi-timestep structure of diffusion models with a data calibration scheme using data sampled from different time steps. Experimental results show that our proposed method is able to directly quantize full-precision diffusion models into 8-bit or 4-bit models while maintaining comparable performance in a training-free manner, achieving a FID change of at most 1.88. Our approach can also be applied to text-guided image generation, and for the first time we can run stable diffusion in 4-bit weights without losing much perceptual quality, as shown in Figure 5 and Figure 9.

arxiv情報

著者 Xiuyu Li,Long Lian,Yijiang Liu,Huanrui Yang,Zhen Dong,Daniel Kang,Shanghang Zhang,Kurt Keutzer
発行日 2023-02-10 09:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク