DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation

要約

拡散モデルはさまざまな画像生成タスクで優れたパフォーマンスを示していますが、膨大な計算コストと膨大なメモリ占有量が現実世界のシナリオでの低遅延アプリケーションの妨げとなります。
量子化は、モデルを圧縮して高速化する有望な方法です。
それにもかかわらず、拡散モデルでは活性化が広範囲で時間とともに変化するため、既存の方法では低ビット量子化の精度と効率の両方を同時に維持することができません。
この問題に取り組むために、同等の精度と高効率を提供する拡散モデル用の新しい量子化フレームワークである DilateQuant を提案します。
具体的には、追加の計算コストをかけずにアクティブ化の範囲を減らすために巧妙に利用できる、多数の不飽和チャネル内重みを私たちは鋭く認識しています。
この洞察に基づいて、数学的に等価なスケーリングを通じて不飽和のチャネル内ウェイトを制限された範囲まで最大限に拡張するウェイト拡張 (WD) を提案します。
WD は、コストをかけずにアクティベーション量子化エラーを重み量子化に吸収します。
アクティベーションの範囲が減少するため、アクティベーションの量子化が容易になります。
重みの範囲は一定のままであるため、トレーニング段階でのモデルの収束が容易になります。
時間ネットワークが時変アクティベーションにつながることを考慮して、タイムステップ量子化パラメータを設定し、さまざまなタイムステップでの並列量子化をサポートする時間並列量子化器 (TPQ) を設計します。これにより、パフォーマンスが大幅に向上し、時間コストが削減されます。
効率を維持しながらパフォーマンスをさらに向上させるために、量子化モデルをブロック レベルで完全精度モデルと調整するブロック単位の知識蒸留 (BKD) を導入します。
タイムステップ量子化パラメータと重みの同時トレーニングにより、必要な時間が最小限に抑えられ、バックプロパゲーション パスが短くなり、量子化プロセスのメモリ フットプリントが減少します。

要約(オリジナル)

Diffusion models have shown excellent performance on various image generation tasks, but the substantial computational costs and huge memory footprint hinder their low-latency applications in real-world scenarios. Quantization is a promising way to compress and accelerate models. Nevertheless, due to the wide range and time-varying activations in diffusion models, existing methods cannot maintain both accuracy and efficiency simultaneously for low-bit quantization. To tackle this issue, we propose DilateQuant, a novel quantization framework for diffusion models that offers comparable accuracy and high efficiency. Specifically, we keenly aware of numerous unsaturated in-channel weights, which can be cleverly exploited to reduce the range of activations without additional computation cost. Based on this insight, we propose Weight Dilation (WD) that maximally dilates the unsaturated in-channel weights to a constrained range through a mathematically equivalent scaling. WD costlessly absorbs the activation quantization errors into weight quantization. The range of activations decreases, which makes activations quantization easy. The range of weights remains constant, which makes model easy to converge in training stage. Considering the temporal network leads to time-varying activations, we design a Temporal Parallel Quantizer (TPQ), which sets time-step quantization parameters and supports parallel quantization for different time steps, significantly improving the performance and reducing time cost. To further enhance performance while preserving efficiency, we introduce a Block-wise Knowledge Distillation (BKD) to align the quantized models with the full-precision models at a block level. The simultaneous training of time-step quantization parameters and weights minimizes the time required, and the shorter backpropagation paths decreases the memory footprint of the quantization process.

arxiv情報

著者 Xuewen Liu,Zhikai Li,Qingyi Gu
発行日 2024-09-25 15:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク