EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

要約

大規模言語モデル (LLM) の計算コストが高いため、量子化、スパース化、構造化枝刈りなどの方法による LLM 圧縮に関する研究が盛んに行われています。
この分野における新たな境地は、\emph{動的、不均一} 圧縮方式によってもたらされます。この圧縮方式は、グローバルな圧縮率を保証しながら、精度の損失を最小限に抑えるために、ブロックごと、さらには層ごとに圧縮レベル (例: スパース性) を調整します。
圧縮のしきい値。
しかし、現在の方法は、 \emph{誤差単調性} などの仮定に基づいて、損失に対する特定の層の「重要性」を特定するヒューリスティックに依存しています。つまり、エンドツーエンドのモデル圧縮誤差は次の合計に比例します。
レイヤーごとのエラー。
このホワイトペーパーでは、この領域を再検討し、特定の入力範囲で最適であることが証明されている動的圧縮のための新しい一般的なアプローチを提案します。
一般に、\emph{誤差の単調性は LLM には当てはまらない}という動機付けとなる観察から始めます。層ごとの誤差の合計が低い圧縮モデルは、誤差の合計が高いモデルよりも \emph{悪い}パフォーマンスを示す可能性があります。
これに対処するために、我々は EvoPress と呼ばれる動的 LLM 圧縮のための新しい一般的な進化的フレームワークを提案します。このフレームワークは、証明可能な収束と低いサンプルと評価の複雑さを備えています。
これらの理論的な保証により、Llama、Mistral、および Phi モデルの動的圧縮において非常に競争力のある実用的なパフォーマンスが得られることを示します。
EvoPress を介して、構造プルーニング (ブロック/レイヤーのドロップ)、非構造化スパース性、動的なビット幅による量子化など、すべての圧縮アプローチにわたって新しい最先端の結果を設定しました。
私たちのコードは https://github.com/IST-DASLab/EvoPress で入手できます。

要約(オリジナル)

The high computational costs of large language models (LLMs) have led to a flurry of research on LLM compression, via methods such as quantization, sparsification, or structured pruning. A new frontier in this area is given by \emph{dynamic, non-uniform} compression methods, which adjust the compression levels (e.g., sparsity) per-block or even per-layer in order to minimize accuracy loss, while guaranteeing a global compression threshold. Yet, current methods rely on heuristics for identifying the ‘importance’ of a given layer towards the loss, based on assumptions such as \emph{error monotonicity}, i.e. that the end-to-end model compression error is proportional to the sum of layer-wise errors. In this paper, we revisit this area, and propose a new and general approach for dynamic compression that is provably optimal in a given input range. We begin from the motivating observation that, in general, \emph{error monotonicity does not hold for LLMs}: compressed models with lower sum of per-layer errors can perform \emph{worse} than models with higher error sums. To address this, we propose a new general evolutionary framework for dynamic LLM compression called EvoPress, which has provable convergence, and low sample and evaluation complexity. We show that these theoretical guarantees lead to highly competitive practical performance for dynamic compression of Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art results across all compression approaches: structural pruning (block/layer dropping), unstructured sparsity, as well as quantization with dynamic bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.

arxiv情報

著者 Oliver Sieberling,Denis Kuznedelev,Eldar Kurtic,Dan Alistarh
発行日 2024-10-18 17:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク