Towards Accurate Binarization of Diffusion Model

要約

拡散モデル (DM) の進歩と計算要件の大幅な増加に伴い、量子化はコンパクトで効率的な低ビット DM を取得するための実用的なソリューションとして浮上しています。
ただし、高度に離散的な表現は精度の大幅な低下につながり、拡散モデルを超低ビット幅に量子化するのを妨げます。
この論文では、DM 用の新しい量子化対応トレーニング アプローチ、つまり BinaryDM を提案します。
提案された方法は、表現と計算の特性を考慮して、DM の重みを正確かつ効率的な 2 値化に向けて推し進めます。
表現の観点から、バイナリ化された DM によって生成された表現を回復するための学習可能な多基底バイナライザー (LMB) を紹介します。
LMB は、デュアル バイナリ ベースの柔軟な組み合わせを通じて詳細な情報を強化すると同時に、DM アーキテクチャのパラメータがまばらな場所に適用して負担を軽減します。
最適化の観点からは、バイナリ化された DM の最適化を支援するために、低ランク表現模倣 (LRM) が適用されます。
LRM は、低ランク空間での完全精度 DM の表現を模倣し、粒度の細かいアライメントによって引き起こされる最適化プロセスの方向の曖昧さを軽減します。
さらに、BinaryDM には迅速なプログレッシブ ウォームアップが適用され、トレーニングの開始時に階層的にプログレッシブ量子化することで収束の困難を回避します。
包括的な実験により、BinaryDM は、超低ビット幅下で DM の SOTA 量子化方法と比較して、精度と効率が大幅に向上することが実証されました。
1.1 ビットの重みと 4 ビットのアクティベーション (W1.1A4) により、BinaryDM は 7.11 FID という低い値を達成し、パフォーマンスの低下を防ぎます (ベースライン FID 39.69)。
拡散モデルの最初の二値化手法として、W1.1A4 BinaryDM は 9.3 倍の OP と 24.8 倍のモデル サイズの削減という驚異的な成果を達成し、エッジ展開における大きな可能性を示しています。

要約(オリジナル)

With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. This paper proposes a novel quantization-aware training approach for DMs, namely BinaryDM. The proposed method pushes DMs’ weights toward accurate and efficient binarization, considering the representation and computation properties. From the representation perspective, we present a Learnable Multi-basis Binarizer (LMB) to recover the representations generated by the binarized DM. The LMB enhances detailed information through the flexible combination of dual binary bases while applying to parameter-sparse locations of DM architectures to achieve minor burdens. From the optimization perspective, a Low-rank Representation Mimicking (LRM) is applied to assist the optimization of binarized DMs. The LRM mimics the representations of full-precision DMs in low-rank space, alleviating the direction ambiguity of the optimization process caused by fine-grained alignment. Moreover, a quick progressive warm-up is applied to BinaryDM, avoiding convergence difficulties by layerwisely progressive quantization at the beginning of training. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. With 1.1-bit weight and 4-bit activation (W1.1A4), BinaryDM achieves as low as 7.11 FID and saves the performance from collapse (baseline FID 39.69). As the first binarization method for diffusion models, W1.1A4 BinaryDM achieves impressive 9.3 times OPs and 24.8 times model size savings, showcasing its substantial potential for edge deployment.

arxiv情報

著者 Xingyu Zheng,Haotong Qin,Xudong Ma,Mingyuan Zhang,Haojie Hao,Jiakai Wang,Zixiang Zhao,Jinyang Guo,Xianglong Liu
発行日 2024-05-28 15:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク