Temporal Dynamic Quantization for Diffusion Models

要約

拡散モデルは、その優れた生成パフォーマンスと多用途性により、ビジョン アプリケーションで人気を集めています。
ただし、モデルのサイズと反復生成に起因するストレージと計算の要求が高いため、モバイル デバイスでの使用が妨げられます。
既存の量子化技術では、活性化の時間的変動という拡散モデルの固有の特性により、8 ビット精度であってもパフォーマンスを維持するのが困難です。
タイムステップ情報に基づいて量子化間隔を動的に調整する新しい量子化方法を導入し、出力品質を大幅に向上させます。
従来の動的量子化手法とは異なり、私たちのアプローチには推論中の計算オーバーヘッドがなく、ポストトレーニング量子化 (PTQ) と量子化対応トレーニング (QAT) の両方と互換性があります。
私たちの広範な実験により、さまざまなデータセットにわたる量子化拡散モデルによる出力品質の大幅な向上が実証されました。

要約(オリジナル)

The diffusion model has gained popularity in vision applications due to its remarkable generative performance and versatility. However, high storage and computation demands, resulting from the model size and iterative generation, hinder its use on mobile devices. Existing quantization techniques struggle to maintain performance even in 8-bit precision due to the diffusion model’s unique property of temporal variation in activation. We introduce a novel quantization method that dynamically adjusts the quantization interval based on time step information, significantly improving output quality. Unlike conventional dynamic quantization techniques, our approach has no computational overhead during inference and is compatible with both post-training quantization (PTQ) and quantization-aware training (QAT). Our extensive experiments demonstrate substantial improvements in output quality with the quantized diffusion model across various datasets.

arxiv情報

著者 Junhyuk So,Jungwon Lee,Daehyun Ahn,Hyungjun Kim,Eunhyeok Park
発行日 2023-12-11 17:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク