FrameQuant: Flexible Low-Bit Quantization for Transformers

要約

トランスフォーマーは、多くのビジョンおよび自然言語処理タスクの強力な基盤モデルのバックボーンです。
しかし、それらのコンピューティングおよびメモリ/ストレージのフットプリントは大きいため、そのようなモデルを提供するには費用がかかり、多くの場合ハイエンドのハードウェアが必要になります。
この困難を軽減するために、トレーニング後の量子化では、事前トレーニングされたモデルを変更して 8 ビット以下に量子化し、コンピューティング/メモリ/レイテンシの効率を大幅に向上させます。
このようなモデルは、パフォーマンスは多少低下しますが、4 ビットに量子化することに成功しました。
この研究では、Transformer ベースのモデルを、わずかな精度の低下でわずか 2 ビット (および若干のオーバーヘッド) に量子化する簡単なスキームの概要を説明します。
私たちの定式化の鍵となるのは、Fusion Frames と呼ばれる調和解析から借用した概念です。
私たちの主な発見は、量子化は元のウェイト空間ではなく、Fusion Frame 表現で行われる必要があるということです。
量子化がノイズの追加として解釈される場合、問題のキャストにより、既知の一貫した回復とノイズの堅牢性の保証の広範な本体を呼び出すことができます。
さらに、必要に応じて、閉じた形式のノイズ除去フィルタが知られています。
私たちは、さまざまな実験を通じて、Transformer モデルの (ほぼ) 2 ビット量子化が大幅な効率向上を約束することを経験的に示しています。
コードは https://github.com/vsingh-group/FrameQuant で入手できます。

要約(オリジナル)

Transformers are the backbone of powerful foundation models for many Vision and Natural Language Processing tasks. But their compute and memory/storage footprint is large, and so, serving such models is expensive often requiring high-end hardware. To mitigate this difficulty, Post-Training Quantization seeks to modify a pre-trained model and quantize it to eight bits or lower, significantly boosting compute/memory/latency efficiency. Such models have been successfully quantized to four bits with some performance loss. In this work, we outline a simple scheme to quantize Transformer-based models to just two bits (plus some overhead) with only a small drop in accuracy. Key to our formulation is a concept borrowed from Harmonic analysis called Fusion Frames. Our main finding is that the quantization must take place not in the original weight space, but instead in the Fusion Frame representations. If quantization is interpreted as the addition of noise, our casting of the problem allows invoking an extensive body of known consistent recovery and noise robustness guarantees. Further, if desired, de-noising filters are known in closed form. We show empirically, via a variety of experiments, that (almost) two-bit quantization for Transformer models promises sizable efficiency gains. The code is available at https://github.com/vsingh-group/FrameQuant

arxiv情報

著者 Harshavardhan Adepu,Zhanpeng Zeng,Li Zhang,Vikas Singh
発行日 2024-07-31 05:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク