SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators

要約

大規模言語モデル (LLM) は自然言語処理を変革しましたが、実行時のコストが高いため、広範囲に導入するには大きな課題に直面しています。
この論文では、擬似ランダム生成器のシードを使用してモデルの重みをエンコードおよび圧縮する新しいトレーニング後の圧縮方法である SeedLM を紹介します。
具体的には、重みのブロックごとに、推論中に線形フィードバック シフト レジスタ (LFSR) に入力されるシードを見つけて、ランダム行列を効率的に生成します。
次に、この行列は圧縮された係数と線形的に結合されて、重みブロックが再構築されます。
SeedLM はメモリ アクセスを削減し、推論中にアイドル状態のコンピューティング サイクルを活用し、コンピューティングをより少ないメモリ アクセスと引き換えに行うことで、メモリに依存するタスクを効果的に高速化します。
キャリブレーション データに依存する最先端の圧縮方法とは異なり、私たちのアプローチはデータフリーであり、さまざまなタスクにわたってよく一般化されます。
特に圧縮が難しい Llama 3 70B を使った実験では、SeedLM が FP16 ベースラインと同等のパフォーマンスを維持しながら、4 ビットおよび 3 ビットで最先端の技術よりも大幅に優れたゼロショット精度保持を達成していることがわかりました。
さらに、FPGA ベースのテストでは、4 ビット SeedLM がモデル サイズが 70B に増加すると、FP16 Llama 2/3 ベースラインと比較して 4 倍の速度向上に近づくことが実証されています。

要約(オリジナル)

Large Language Models (LLMs) have transformed natural language processing, but face significant challenges in widespread deployment due to their high runtime cost. In this paper, we introduce SeedLM, a novel post-training compression method that uses seeds of pseudo-random generators to encode and compress model weights. Specifically, for each block of weights, we find a seed that is fed into a Linear Feedback Shift Register (LFSR) during inference to efficiently generate a random matrix. This matrix is then linearly combined with compressed coefficients to reconstruct the weight block. SeedLM reduces memory access and leverages idle compute cycles during inference, effectively speeding up memory-bound tasks by trading compute for fewer memory accesses. Unlike state-of-the-art compression methods that rely on calibration data, our approach is data-free and generalizes well across diverse tasks. Our experiments with Llama 3 70B, which is particularly challenging to compress, show that SeedLM achieves significantly better zero-shot accuracy retention at 4- and 3-bit than state-of-the-art techniques, while maintaining performance comparable to FP16 baselines. Additionally, FPGA-based tests demonstrate that 4-bit SeedLM, as model size increases to 70B, approaches a 4x speed-up over an FP16 Llama 2/3 baseline.

arxiv情報

著者 Rasoul Shafipour,David Harrison,Maxwell Horton,Jeffrey Marker,Houman Bedayat,Sachin Mehta,Mohammad Rastegari,Mahyar Najibi,Saman Naderiparizi
発行日 2024-10-14 16:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク