BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments

要約

大規模な言語モデル(LLM)は多数のアプリケーションに革命をもたらしましたが、それらの展開は、ローカルデバイスのメモリの制約によって依然として挑戦されています。
スケーリング法はLLM機能が強化されていますが、主要なボトルネックは\ textit {capability}から\ textit {availability}にシフトし、効率的なメモリ管理の必要性を強調しました。
量子化などの従来の圧縮方法には、多くの場合、事前定義された圧縮比と各設定の個別の圧縮プロセスが必要であり、可変メモリ環境での展開を複雑にします。
このホワイトペーパーでは、メモリの使用とモデルのパフォーマンスの間のメガバイトレベルのトレードオフを可能にする斬新でトレーニングフリーの重量圧縮アプローチである\ textBf {BitStack}を紹介します。
重量分解を活用することにより、BitStackは、ランニングメモリとストレージデバイスの間の最小限の伝送でモデルサイズを動的に調整できます。
私たちのアプローチは、各パラメーターの有意性を考慮しながら、重量マトリックスを繰り返し分解し、各分解反復でパラメーターあたりの残差ブロックあたり約1ビットになります。
これらのブロックは、ソートされ、ストレージに積み重ねられており、基本的な伝送ユニットとして積み重ねられており、現在のメモリの可用性に基づいて異なる数量がロードされています。
幅広いタスクにわたる広範な実験では、きめの細かいサイズ制御を提供しているにもかかわらず、ビットスタックは特に極端な圧縮比で強力な量子化ベースラインと一貫して一致または上回ることが示されています。
私たちの知る限り、これは、量子化のような実用的な圧縮技術とのギャップを効果的に橋渡しする最初の分解ベースの方法です。
コードはhttps://github.com/xinghaow99/bitstackで入手できます。

要約(オリジナル)

Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from \textit{capability} to \textit{availability}, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce \textbf{BitStack}, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.

arxiv情報

著者 Xinghao Wang,Pengyu Wang,Bo Wang,Dong Zhang,Yunhua Zhou,Xipeng Qiu
発行日 2025-02-17 13:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク