The LLM Surgeon

要約

利用可能な大規模なテキスト データのコーパスで最高のパフォーマンスを達成するために、最先端の言語モデルはますます大規模になっています。
ただし、Transformer アーキテクチャのサイズが非常に大きいため、計算、環境、またはデバイス固有の制約内でモデルを展開することが困難になります。
小規模なモデルを最初からトレーニングする代わりに、既存の事前トレーニング済みモデルのデータ駆動型圧縮を検討します。
そのために、ターゲットの損失ランドスケープのクロネッカー因子による曲率近似を大規模な言語モデルにスケールします。
そうすることで、削除できる構造の動的割り当てと、削除を考慮した残りの重みの更新の両方を計算できます。
非構造化、半構造化、構造化枝刈りのための一般的なフレームワークを提供し、計算効率を維持しながら重み間のより多くの相関を捕捉するために重みの更新を改善します。
実験的に、私たちの方法は、パフォーマンスの低下を無視して、さまざまな OPT モデルおよび Llamav2-7B から行と列を 20% ~ 30% プルーニングでき、非構造化および半構造化プルーニングで最先端の結果を達成できます。
大規模な言語モデルの。

要約(オリジナル)

State-of-the-art language models are becoming increasingly large in an effort to achieve the highest performance on large corpora of available textual data. However, the sheer size of the Transformer architectures makes it difficult to deploy models within computational, environmental or device-specific constraints. We explore data-driven compression of existing pretrained models as an alternative to training smaller models from scratch. To do so, we scale Kronecker-factored curvature approximations of the target loss landscape to large language models. In doing so, we can compute both the dynamic allocation of structures that can be removed as well as updates of remaining weights that account for the removal. We provide a general framework for unstructured, semi-structured and structured pruning and improve upon weight updates to capture more correlations between weights, while remaining computationally efficient. Experimentally, our method can prune rows and columns from a range of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance, and achieve state-of-the-art results in unstructured and semi-structured pruning of large language models.

arxiv情報

著者 Tycho F. A. van der Ouderaa,Markus Nagel,Mart van Baalen,Yuki M. Asano,Tijmen Blankevoort
発行日 2023-12-28 18:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク