要約
拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をもたらしました。
ただし、DMSの大きな計算コストとモデルのフットプリントは、特にエッジデバイスでの実用的な展開を妨げます。
トレーニング後の量子化(PTQ)は、トレーニングや微調整を必要とせずにこれらの負担を軽減する軽量の方法です。
最近のDM PTQメソッドは、整数ベースのPTQでW4A8を達成しますが、2つの重要な制限は残ります。最初に、ほとんどの既存のDM PTQメソッドは、逆拡散XL、1.5以前の安定した拡散XLなどの古典的なDMを評価します。
第二に、整数(INT)量子化はDM PTQで普及していますが、ネットワークの重みと活性化の分布とうまく整合していませんが、浮動小数点量子化(FPQ)は依然として投資不足ですが、DITの低ビット設定での重量と活性化分布をよりよく調整する可能性があります。
これに応じて、FP4DITを紹介します。FP4DITは、FPQを活用してW4A6量子化を達成するPTQメソッドです。
具体的には、適応型の丸めPTQ技術を拡張して一般化して、FPQの重量量子化を適切に調整し、DITアクティベーションが入力パッチデータに依存し、堅牢なオンラインアクティベーション量子化技術が必要であることを実証します。
実験結果は、FP4DITがW4A6およびW4A8精度で整数ベースのPTQを上回り、PIXART-$ \ ALPHA $、PIXART-$ \ SIGMA $およびHUNYUANで説得力のある視覚コンテンツを生成することを示しています。
要約(オリジナル)
Diffusion Models (DM) have revolutionized the text-to-image visual generation process. However, the large computational cost and model footprint of DMs hinders practical deployment, especially on edge devices. Post-training quantization (PTQ) is a lightweight method to alleviate these burdens without the need for training or fine-tuning. While recent DM PTQ methods achieve W4A8 on integer-based PTQ, two key limitations remain: First, while most existing DM PTQ methods evaluate on classical DMs like Stable Diffusion XL, 1.5 or earlier, which use convolutional U-Nets, newer Diffusion Transformer (DiT) models like the PixArt series, Hunyuan and others adopt fundamentally different transformer backbones to achieve superior image synthesis. Second, integer (INT) quantization is prevailing in DM PTQ but doesn’t align well with the network weight and activation distribution, while Floating-Point Quantization (FPQ) is still under-investigated, yet it holds the potential to better align the weight and activation distributions in low-bit settings for DiT. In response, we introduce FP4DiT, a PTQ method that leverages FPQ to achieve W4A6 quantization. Specifically, we extend and generalize the Adaptive Rounding PTQ technique to adequately calibrate weight quantization for FPQ and demonstrate that DiT activations depend on input patch data, necessitating robust online activation quantization techniques. Experimental results demonstrate that FP4DiT outperforms integer-based PTQ at W4A6 and W4A8 precision and generates convincing visual content on PixArt-$\alpha$, PixArt-$\Sigma$ and Hunyuan in terms of several T2I metrics such as HPSv2 and CLIP.
arxiv情報
著者 | Ruichen Chen,Keith G. Mills,Di Niu |
発行日 | 2025-03-19 17:44:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google