要約
拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要求は、リソース制約のデバイスでの展開を妨げます。
トレーニング後の量子化(PTQ)は、マトリックス操作のbit幅を減らすことにより、有望なソリューションを提供します。
ただし、標準のPTQメソッドは外れ値と闘っており、より高い圧縮を達成するには、多くの場合、量子化前にモデルの重みと活性化を変換する必要があります。
この作業では、既存のアプローチを拡張し、アクティベーションを効果的に緩和する新しい線形変換であるHadanormを提案します。これは、Hadamard変換を適用する前にアクティベーション機能チャネルを正規化し、より積極的なアクティベーション量子化を可能にすることにより、外れ値を緩和します。
Hadanormは、変圧器ブロックのさまざまなコンポーネント全体の量子化誤差を一貫して減らし、最新の方法と比較して優れた効率パフォーマンスのトレードオフを達成することを実証します。
要約(オリジナル)
Diffusion models represent the cutting edge in image generation, but their high memory and computational demands hinder deployment on resource-constrained devices. Post-Training Quantization (PTQ) offers a promising solution by reducing the bitwidth of matrix operations. However, standard PTQ methods struggle with outliers, and achieving higher compression often requires transforming model weights and activations before quantization. In this work, we propose HadaNorm, a novel linear transformation that extends existing approaches and effectively mitigates outliers by normalizing activations feature channels before applying Hadamard transformations, enabling more aggressive activation quantization. We demonstrate that HadaNorm consistently reduces quantization error across the various components of transformer blocks, achieving superior efficiency-performance trade-offs when compared to state-of-the-art methods.
arxiv情報
著者 | Marco Federici,Riccardo Del Chiaro,Boris van Breugel,Paul Whatmough,Markus Nagel |
発行日 | 2025-06-11 16:54:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google