要約
拡散モデル(DM)の高度化と計算量の大幅な増加に伴い、コンパクトで効率的な低ビットDMを得るための実用的なソリューションとして量子化が登場した。しかし、高度に離散的な表現は深刻な精度劣化をもたらし、超低ビット幅への拡散モデルの量子化を妨げる。本論文では、DMのための新しい重み2値化アプローチ、すなわちBinaryDMを提案し、表現と最適化を改善することにより、2値化DMを高精度で効率的なものに押し上げる。表現の観点からは、DMを全精度から正確な2値化へと滑らかに進化させることを可能にするEvolvable-Basis Binarizer (EBB)を提示する。EBBは、初期段階では複数の2値基底を柔軟に組み合わせることで情報表現を強化し、正則化を適用して効率的な単一基底2値化へと進化させる。この進化は、学習の安定性を保つために、DMアーキテクチャの先頭と最後尾でのみ起こる。最適化の観点から、2値化DMの最適化を支援するために低ランク表現模倣(LRM)が適用される。LRMは、低ランク空間における全精度DMの表現を模倣し、細粒度アライメントに起因する最適化プロセスの方向性の曖昧さを緩和する。包括的な実験により、BinaryDMは、超低ビット幅のDMのSOTA量子化手法と比較して、大幅な精度と効率の向上を達成することが実証された。1ビットの重みと4ビットの活性化(W1A4)により、BinaryDMは7.74という低いFIDを達成し、性能の崩壊(ベースラインFID 10.87)を防いだ。拡散モデルのための最初の二値化手法として、W1A4 BinaryDMは、15.2倍のOPと29.2倍のモデルサイズの節約を達成し、エッジ展開のための大きな可能性を示しています。
要約(オリジナル)
With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. This paper proposes a novel weight binarization approach for DMs, namely BinaryDM, pushing binarized DMs to be accurate and efficient by improving the representation and optimization. From the representation perspective, we present an Evolvable-Basis Binarizer (EBB) to enable a smooth evolution of DMs from full-precision to accurately binarized. EBB enhances information representation in the initial stage through the flexible combination of multiple binary bases and applies regularization to evolve into efficient single-basis binarization. The evolution only occurs in the head and tail of the DM architecture to retain the stability of training. From the optimization perspective, a Low-rank Representation Mimicking (LRM) is applied to assist the optimization of binarized DMs. The LRM mimics the representations of full-precision DMs in low-rank space, alleviating the direction ambiguity of the optimization process caused by fine-grained alignment. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. With 1-bit weight and 4-bit activation (W1A4), BinaryDM achieves as low as 7.74 FID and saves the performance from collapse (baseline FID 10.87). As the first binarization method for diffusion models, W1A4 BinaryDM achieves impressive 15.2x OPs and 29.2x model size savings, showcasing its substantial potential for edge deployment.
arxiv情報
著者 | Xingyu Zheng,Xianglong Liu,Haotong Qin,Xudong Ma,Mingyuan Zhang,Haojie Hao,Jiakai Wang,Zixiang Zhao,Jinyang Guo,Michele Magno |
発行日 | 2024-10-03 15:50:48+00:00 |
arxivサイト | arxiv_id(pdf) |