要約
大規模言語モデル (LLM) は多くのアプリケーションに革命をもたらしましたが、その導入には依然としてローカル デバイスのメモリ制約という課題が残されています。
スケーリングの法則により LLM 機能が強化される一方、主なボトルネックは \textit{capability} から \textit{availability} に移り、効率的なメモリ管理の必要性が強調されています。
量子化などの従来の圧縮方法では、多くの場合、事前定義された圧縮率と設定ごとに個別の圧縮プロセスが必要であり、可変メモリ環境での導入が複雑になります。
この論文では、メモリ使用量とモデルのパフォーマンスの間でメガバイトレベルのトレードオフを可能にする、トレーニング不要の新しい重み圧縮アプローチである \textbf{BitStack} を紹介します。
BitStack は重み分解を活用することで、実行中のメモリとストレージ デバイス間の転送を最小限に抑えながらモデル サイズを動的に調整できます。
私たちのアプローチでは、各パラメーターの重要性を考慮しながら重み行列を反復的に分解し、各分解反復でパラメーターごとに約 1 ビットの残差ブロックが生成されます。
これらのブロックは、現在のメモリの利用可能性に基づいてさまざまな量が読み込まれ、基本的な送信単位としてストレージ内に並べ替えられてスタックされます。
幅広いタスクにわたる広範な実験により、BitStack は、きめ細かいサイズ制御を提供しているにもかかわらず、特に極端な圧縮率において、一貫して強力な量子化ベースラインと一致またはそれを上回ることが実証されています。
私たちの知る限り、これは、量子化などの実際の圧縮技術とのギャップを効果的に埋める、最初の分解ベースの方法です。
コードは https://github.com/xinghaow99/BitStack で入手できます。
要約(オリジナル)
Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from \textit{capability} to \textit{availability}, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce \textbf{BitStack}, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.
arxiv情報
著者 | Xinghao Wang,Pengyu Wang,Bo Wang,Dong Zhang,Yunhua Zhou,Xipeng Qiu |
発行日 | 2024-10-31 13:26:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google