DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models

要約

さまざまなタスクでテキスト間拡散モデルを広く使用しているにもかかわらず、計算およびメモリの要求は実用的なアプリケーションを制限しています。
この問題を軽減するために、拡散モデルの量子化が調査されています。
重量とアクティベーションを低ビット形式に圧縮することにより、メモリの使用量と計算コストを削減します。
ただし、既存の方法は、特に低ビット($ <$ 8ビット)の量子化において、画質とテキストイメージの両方の調整を維持するのに苦労しています。 この論文では、分布の観点からテキスト間拡散モデルを量子化することに関連する課題を分析します。 私たちの分析により、活性化外れ値が画質を決定する上で重要な役割を果たすことが明らかになりました。 さらに、クロスアテンションスコアの特徴的なパターンを特定し、テキストイメージのアライメントに大きな影響を与えます。 これらの課題に対処するために、分布認識グループ量子化(DGQ)を提案します。これは、画質を維持するためにピクセルごとのアウトレイとチャネルごとの外れ値を識別し、適応的に処理する方法です。 さらに、DGQは、テキストイメージのアライメントを維持するために、プロンプト固有の対数定量化スケールを適用します。 私たちの方法は、MS-COCOやPartipromptsなどのデータセットでの顕著なパフォーマンスを示しています。 私たちは、重量量子化パラメーターの追加の微調整を必要とせずに、テキストから画像への拡散モデルの低ビットの量子化を正常に達成した最初の人です。 コードはhttps://github.com/ugonfor/dgqで入手できます。

要約(オリジナル)

Despite the widespread use of text-to-image diffusion models across various tasks, their computational and memory demands limit practical applications. To mitigate this issue, quantization of diffusion models has been explored. It reduces memory usage and computational costs by compressing weights and activations into lower-bit formats. However, existing methods often struggle to preserve both image quality and text-image alignment, particularly in lower-bit($<$ 8bits) quantization. In this paper, we analyze the challenges associated with quantizing text-to-image diffusion models from a distributional perspective. Our analysis reveals that activation outliers play a crucial role in determining image quality. Additionally, we identify distinctive patterns in cross-attention scores, which significantly affects text-image alignment. To address these challenges, we propose Distribution-aware Group Quantization (DGQ), a method that identifies and adaptively handles pixel-wise and channel-wise outliers to preserve image quality. Furthermore, DGQ applies prompt-specific logarithmic quantization scales to maintain text-image alignment. Our method demonstrates remarkable performance on datasets such as MS-COCO and PartiPrompts. We are the first to successfully achieve low-bit quantization of text-to-image diffusion models without requiring additional fine-tuning of weight quantization parameters. Code is available at https://github.com/ugonfor/DGQ.

arxiv情報

著者 Hyogon Ryu,NaHyeon Park,Hyunjung Shim
発行日 2025-02-12 10:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク