Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion

要約

安定した拡散モデル(SDM)を介したテキストから画像の生成は、顕著な能力を実証しています。
ただし、特に反復的な除去プロセスでの計算強度は、潜伏感度に敏感なアプリケーションでのリアルタイムの展開を妨げます。
最近の研究では、拡散モデルを圧縮するためのトレーニング後の量子化(PTQ)および量子化対応トレーニング(QAT)メソッドを調査しましたが、既存の方法は、量子化モデルと浮遊点モデルから生成された結果の一貫性を見落としていることがよくあります。
この一貫性は、効率と出力の信頼性の両方が不可欠な専門的なアプリケーションにとって最も重要です。
量子化されたSDMが高品質で一貫した画像を生成することを確認するために、SDMの効率的な量子化フレームワークを提案します。
私たちのフレームワークでは、トレーニングの関心の一貫性を同時に維持し、最適化の安定性を保証するシリアル間のパイプラインを紹介します。
この基盤の上に構築された私たちはさらに、マルチタイムステップの活性化量子化、時間情報の事前計算、層間蒸留、選択的凍結を含むいくつかの手法を開発し、量子効率を維持しながら浮遊点モデルと比較して高忠実度の生成を達成します。
複数の安定した拡散バリエーション(V1-4、V2-1、XL 1.0、およびV3)にわたる包括的な評価を通じて、我々の方法は、トレーニング時間の短縮で最先端のアプローチよりも優れたパフォーマンスを示しています。
W4A8の量子化設定では、高い画質を維持しながら、分布の類似性と視覚的忠実度の両方が大幅に改善されます。

要約(オリジナル)

Text-to-image generation via Stable Diffusion models (SDM) have demonstrated remarkable capabilities. However, their computational intensity, particularly in the iterative denoising process, hinders real-time deployment in latency-sensitive applications. While Recent studies have explored post-training quantization (PTQ) and quantization-aware training (QAT) methods to compress Diffusion models, existing methods often overlook the consistency between results generated by quantized models and those from floating-point models. This consistency is paramount for professional applications where both efficiency and output reliability are essential. To ensure that quantized SDM generates high-quality and consistent images, we propose an efficient quantization framework for SDM. Our framework introduces a Serial-to-Parallel pipeline that simultaneously maintains training-inference consistency and ensures optimization stability. Building upon this foundation, we further develop several techniques including multi-timestep activation quantization, time information precalculation, inter-layer distillation, and selective freezing, to achieve high-fidelity generation in comparison to floating-point models while maintaining quantization efficiency. Through comprehensive evaluation across multiple Stable Diffusion variants (v1-4, v2-1, XL 1.0, and v3), our method demonstrates superior performance over state-of-the-art approaches with shorter training times. Under W4A8 quantization settings, we achieve significant improvements in both distribution similarity and visual fidelity, while preserving a high image quality.

arxiv情報

著者 Shuaiting Li,Juncan Deng,Zeyu Wang,Kedong Xu,Rongtao Deng,Hong Gu,Haibin Shen,Kejie Huang
発行日 2025-05-07 16:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク