要約
画像生成の一般的なフレームワークである拡散モデルは、推論時間の延長と大量のメモリ要件により、幅広い適用性の点で重大な課題に直面しています。
従来のモデルにおけるこれらの問題に対処するには、効率的なポストトレーニング量子化 (PTQ) が極めて重要です。
従来のモデルとは異なり、拡散モデルは満足のいくマルチラウンドノイズ除去を達成するためにタイムステップ $t$ に大きく依存します。
通常、有限集合 $\{1, \ldots, T\}$ からの $t$ は、サンプリング データにまったく関係なく、いくつかのモジュールによって時間特徴に符号化されます。
ただし、既存の PTQ 方法では、これらのモジュールを個別に最適化することはできません。
これらは、不適切な再構成ターゲットと複雑なキャリブレーション方法を採用しており、その結果、時間的特徴とノイズ除去軌道が著しく乱れ、圧縮効率が低くなります。
これらを解決するために、タイムステップ $t$ にのみ関連し、サンプリング データとは無関係な時間情報ブロックに基づいて構築される時間特徴維持量子化 (TFMQ) フレームワークを提案します。
先駆的なブロック設計を活用して、時間情報認識再構成 (TIAR) と有限集合キャリブレーション (FSC) を考案し、限られた時間内で完全精度の時間的特徴を調整します。
このフレームワークを装備することで、最も一時的な情報を維持し、エンドツーエンドの生成品質を保証できます。
さまざまなデータセットと拡散モデルに関する広範な実験により、最先端の結果が証明されています。
注目すべきことに、私たちの量子化アプローチは初めて、4 ビット重み量子化の下で完全精度モデルとほぼ同等のモデル パフォーマンスを達成しました。
さらに、私たちの方法では追加の計算コストがほとんど発生せず、量子化時間が以前の研究と比較して、LSUN-Bedrooms $256 \times$ で $2.0 \times$ 高速化されます。
要約(オリジナル)
The Diffusion model, a prevalent framework for image generation, encounters significant challenges in terms of broad applicability due to its extended inference times and substantial memory requirements. Efficient Post-training Quantization (PTQ) is pivotal for addressing these issues in traditional models. Different from traditional models, diffusion models heavily depend on the time-step $t$ to achieve satisfactory multi-round denoising. Usually, $t$ from the finite set $\{1, \ldots, T\}$ is encoded to a temporal feature by a few modules totally irrespective of the sampling data. However, existing PTQ methods do not optimize these modules separately. They adopt inappropriate reconstruction targets and complex calibration methods, resulting in a severe disturbance of the temporal feature and denoising trajectory, as well as a low compression efficiency. To solve these, we propose a Temporal Feature Maintenance Quantization (TFMQ) framework building upon a Temporal Information Block which is just related to the time-step $t$ and unrelated to the sampling data. Powered by the pioneering block design, we devise temporal information aware reconstruction (TIAR) and finite set calibration (FSC) to align the full-precision temporal features in a limited time. Equipped with the framework, we can maintain the most temporal information and ensure the end-to-end generation quality. Extensive experiments on various datasets and diffusion models prove our state-of-the-art results. Remarkably, our quantization approach, for the first time, achieves model performance nearly on par with the full-precision model under 4-bit weight quantization. Additionally, our method incurs almost no extra computational cost and accelerates quantization time by $2.0 \times$ on LSUN-Bedrooms $256 \times 256$ compared to previous works.
arxiv情報
著者 | Yushi Huang,Ruihao Gong,Jing Liu,Tianlong Chen,Xianglong Liu |
発行日 | 2024-02-28 16:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google