Compact Language Models via Pruning and Knowledge Distillation

要約

現在、さまざまな展開規模とサイズを対象とした大規模言語モデル (LLM) は、各バリアントを最初からトレーニングすることによって生成されています。
これは非常に多くの計算を必要とします。
このペーパーでは、既存の LLM を枝刈りし、元のトレーニング データの一部 (<3%) で再トレーニングすることが、完全な再トレーニングを繰り返す代わりに適切であるかどうかを調査します。 この目的を達成するために、深さ、幅、注意力、MLP プルーニングと知識の蒸留ベースの再トレーニングを組み合わせた、LLM 向けの実践的で効果的な圧縮のベスト プラクティスを開発します。 私たちは、各軸の枝刈り戦略、軸を組み合わせる方法、蒸留戦略、および最適な圧縮アーキテクチャに到達するための検索手法の詳細な経験的調査を通じて、これらのベスト プラクティスに到達しました。 このガイドを使用して、LLM の Nemotron-4 ファミリを 2 ~ 4 倍に圧縮し、さまざまな言語モデリング タスクでそのパフォーマンスを同様のサイズのモデルと比較します。 私たちのアプローチを使用して、すでに事前トレーニングされた 15B モデルから 8B モデルと 4B モデルを導出するには、最初からトレーニングする場合と比較して、モデルごとに必要なトレーニング トークンが最大 40 倍少なくなります。 これにより、完全なモデル ファミリ (15B、8B、および 4B) のトレーニングで計算コストが 1.8 倍削減されます。 Minitron モデルは、最初からトレーニングした場合と比較して MMLU スコアが最大 16% 向上し、Mistral 7B、Gemma 7B、Llama-3 8B などの他のコミュニティ モデルと同等のパフォーマンスを示し、最先端の圧縮技術を上回ります。 文学。 Minitron モデルの重みを Huggingface でオープンソース化し、サンプル コードを含む対応する補足資料を GitHub で入手できます。

要約(オリジナル)

Large language models (LLMs) targeting different deployment scales and sizes are currently produced by training each variant from scratch; this is extremely compute-intensive. In this paper, we investigate if pruning an existing LLM and then re-training it with a fraction (<3%) of the original training data can be a suitable alternative to repeated, full retraining. To this end, we develop a set of practical and effective compression best practices for LLMs that combine depth, width, attention and MLP pruning with knowledge distillation-based retraining; we arrive at these best practices through a detailed empirical exploration of pruning strategies for each axis, methods to combine axes, distillation strategies, and search techniques for arriving at optimal compressed architectures. We use this guide to compress the Nemotron-4 family of LLMs by a factor of 2-4x, and compare their performance to similarly-sized models on a variety of language modeling tasks. Deriving 8B and 4B models from an already pretrained 15B model using our approach requires up to 40x fewer training tokens per model compared to training from scratch; this results in compute cost savings of 1.8x for training the full model family (15B, 8B, and 4B). Minitron models exhibit up to a 16% improvement in MMLU scores compared to training from scratch, perform comparably to other community models such as Mistral 7B, Gemma 7B and Llama-3 8B, and outperform state-of-the-art compression techniques from the literature. We have open-sourced Minitron model weights on Huggingface, with corresponding supplementary material including example code available on GitHub.

arxiv情報

著者 Saurav Muralidharan,Sharath Turuvekere Sreenivas,Raviraj Joshi,Marcin Chochowski,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro,Jan Kautz,Pavlo Molchanov
発行日 2024-11-04 17:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク