LLM Pruning and Distillation in Practice: The Minitron Approach

要約

プルーニングと蒸留を使用して、Llama 3.1 8B モデルと Mistral NeMo 12B モデルをそれぞれ 4B と 8B パラメーターに圧縮することに関する包括的なレポートを提示します。
2 つの異なる枝刈り戦略 (1) 深さ枝刈り、(2) ジョイント非表示/アテンション/MLP (幅) 枝刈りを調査し、LM 評価ハーネスの共通ベンチマークで結果を評価します。
次に、モデルは NeMo Aligner で調整され、指示によって調整されたバージョンでテストされます。
このアプローチにより、Llama 3.1 8B から魅力的な 4B モデルが生成され、Mistral NeMo 12B から最先端の Mistral-NeMo-Minitron-8B (略して MN-Minitron-8B) モデルが生成されます。
元のデータにアクセスできない場合、蒸留データセットで教師モデルをわずかに微調整することが有益であることがわかりました。
私たちは、寛容なライセンスを使用して、Hugging Face の基本モデルのウェイトをオープンソースにしています。

要約(オリジナル)

We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.

arxiv情報

著者 Sharath Turuvekere Sreenivas,Saurav Muralidharan,Raviraj Joshi,Marcin Chochowski,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro,Jan Kautz,Pavlo Molchanov
発行日 2024-08-26 17:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク