Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models

要約

拡散モデルは、ディープ ニューラル ネットワークを使用してランダムなガウス ノイズを反復的にノイズ除去することで画像を生成する新しいモデルです。
これらのモデルは通常、高い計算量とメモリ要求を示し、高性能の推論を実現するにはトレーニング後の効果的な量子化が必要です。
最近の研究では、拡散モデルの低ビット幅 (8 ビットまたは 4 ビットなど) 量子化が提案されていますが、4 ビット整数量子化では通常、低品質の画像が生成されます。
広く使用されているいくつかのハードウェア プラットフォームでは、同じビット幅 (8 ビットまたは 4 ビットなど) の浮動小数点算術演算と整数算術演算の間で計算能力にほとんど差がないことがわかりました。
したがって、整数量子化方法と比較して優れた画質を提供する拡散モデル用の効果的な浮動小数点量子化方法を提案します。
他の処理タスク、特にコンピュータ ビジョンや自然言語タスクに有効な浮動小数点量子化手法を採用し、完全精度値を量子化値にマッピングする際の重み丸め学習を統合することで拡散モデルに合わせて調整しています。
量子化プロセス。
私たちは、最先端の拡散モデルにおける整数および浮動小数点の量子化手法を包括的に研究しています。
当社の浮動小数点量子化手法は、整数量子化手法よりも高品質の画像を生成するだけでなく、重みとアクティベーションの両方が 8 に量子化された場合、完全精度モデル (32 ビット浮動小数点) と比較して顕著な劣化を示しません。
-bit 浮動小数点値ですが、4 ビットの重みと 8 ビットのアクティベーションでは劣化が最小限に抑えられます。

要約(オリジナル)

Diffusion models are emerging models that generate images by iteratively denoising random Gaussian noise using deep neural networks. These models typically exhibit high computational and memory demands, necessitating effective post-training quantization for high-performance inference. Recent works propose low-bitwidth (e.g., 8-bit or 4-bit) quantization for diffusion models, however 4-bit integer quantization typically results in low-quality images. We observe that on several widely used hardware platforms, there is little or no difference in compute capability between floating-point and integer arithmetic operations of the same bitwidth (e.g., 8-bit or 4-bit). Therefore, we propose an effective floating-point quantization method for diffusion models that provides better image quality compared to integer quantization methods. We employ a floating-point quantization method that was effective for other processing tasks, specifically computer vision and natural language tasks, and tailor it for diffusion models by integrating weight rounding learning during the mapping of the full-precision values to the quantized values in the quantization process. We comprehensively study integer and floating-point quantization methods in state-of-the-art diffusion models. Our floating-point quantization method not only generates higher-quality images than that of integer quantization methods, but also shows no noticeable degradation compared to full-precision models (32-bit floating-point), when both weights and activations are quantized to 8-bit floating-point values, while has minimal degradation with 4-bit weights and 8-bit activations.

arxiv情報

著者 Cheng Chen,Christina Giannoula,Andreas Moshovos
発行日 2024-08-13 15:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク